Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De redeneerstappen gegenereerd door LLM's kunnen onvolledig zijn, omdat ze logische sprongen nabootsen die veel voorkomen in alledaagse communicatie in hun voorafgaande trainingdata: onderliggende rationales worden vaak impliciet (niet expliciet) gelaten. Om dit probleem aan te pakken, introduceren we RATIONALYST, een model voor procesbegeleiding van redeneren op basis van voorafgaande training op een uitgebreide verzameling rationale annotaties die zijn geëxtraheerd uit ongelabelde data. We extraheren 79k rationales uit een web-scale ongelabelde dataset (de Pile) en een combinatie van redeneerdatasets met minimaal menselijk ingrijpen. Deze web-scale voorafgaande training voor redeneren stelt RATIONALYST in staat om consistent te generaliseren over diverse redeneertaken, waaronder wiskundig, gezond verstand, wetenschappelijk en logisch redeneren. Na fijnafstemming van LLaMa-3-8B, verbetert RATIONALYST de nauwkeurigheid van redeneren gemiddeld met 3,9% op 7 representatieve redeneer-benchmarks. Het toont ook superieure prestaties in vergelijking met aanzienlijk grotere verifiers zoals GPT-4 en modellen van vergelijkbare grootte die zijn fijnafgestemd op overeenkomstige trainingssets.
Verschillende visuele basismodellen hebben verschillende sterke en zwakke punten, die beide verbeterd kunnen worden door heterogene multi-docentenkennisdestillatie zonder labels, genaamd "agglomeratieve modellen." We bouwen voort op deze reeks onderzoeken door het effect van de activatiestatistieken van de docenten te bestuderen, met name de invloed van de verliesfunctie op de resulterende kwaliteit van het studentenmodel. We verkennen een standaard toolkit van statistische normalisatietechnieken om de verschillende distributies beter op elkaar af te stemmen en hun effecten te beoordelen. Verder onderzoeken we het effect op downstream docent-matching-metrieken, wat het gebruik van Hadamard-matrices motiveert. Met behulp van deze matrices tonen we nuttige eigenschappen aan, waarbij we laten zien hoe ze kunnen worden gebruikt voor isotropische standaardisatie, waarbij elke dimensie van een multivariate distributie wordt gestandaardiseerd met dezelfde schaal. We noemen deze techniek "PHI Standaardisatie" (PHI-S) en tonen empirisch aan dat het het beste studentenmodel oplevert binnen de reeks onderzochte methoden.
Hoewel grote taalmodellen aanzienlijke vooruitgang hebben geboekt in codegeneratie, wordt de slaagkans van de gegenereerde code belemmerd door subtiele fouten, die vaak menselijke tussenkomst vereisen om tests te doorstaan, vooral bij complexe problemen. Bestaande op LLM gebaseerde debugsystemen behandelen gegenereerde programma's als monolithische eenheden en pakken bugs niet aan op meerdere niveaus van granulariteit, van laag-niveau syntaxisfouten tot hoog-niveau algoritmische gebreken. In dit artikel introduceren we Multi-Granulariteit Debugger (MGDebugger), een hiërarchische code debugger die bugs isoleert, identificeert en oplost op verschillende granulariteitsniveaus. MGDebugger decomposeert problematische code in een hiërarchische boomstructuur van subfuncties, waarbij elk niveau een specifieke granulariteit van fout vertegenwoordigt. Tijdens het debuggen analyseert het elke subfunctie en lost het bugs iteratief op op een bottom-up manier. Om elke subfunctie effectief te testen, stellen we een LLM-gesimuleerde Python-uitvoerder voor, die code-uitvoering traceert en belangrijke variabelenstaten bijhoudt om fouten nauwkeurig te lokaliseren. Uitgebreide experimenten tonen aan dat MGDebugger beter presteert dan bestaande debugsystemen, met een verbetering van 18,9% in nauwkeurigheid ten opzichte van initiële generaties in HumanEval en een reparatiesucces van 97,6% in HumanEvalFix. Bovendien lost MGDebugger effectief bugs op in verschillende categorieën en moeilijkheidsniveaus, wat zijn robuustheid en effectiviteit aantoont.
Neural Radiance Fields (NeRF) worden veel gebruikt voor het synthetiseren van nieuwe weergaven en zijn aangepast voor driedimensionale objectdetectie (3DOD), wat een veelbelovende benadering biedt voor 3DOD via weergave door synthese. NeRF kampt echter met inherente beperkingen: (i) beperkte representatiecapaciteit voor 3DOD vanwege zijn impliciete aard, en (ii) trage renderingsnelheden. Onlangs is driedimensionaal Gaussisch splatten (3DGS) naar voren gekomen als een expliciete 3D-representatie die deze beperkingen aanpakt. Geïnspireerd door deze voordelen, introduceert dit artikel 3DGS voor het eerst in 3DOD, waarbij twee belangrijke uitdagingen worden geïdentificeerd: (i) Ambigue ruimtelijke verdeling van Gaussische blobs: 3DGS vertrouwt voornamelijk op 2D pixelniveau-toezicht, wat resulteert in een onduidelijke driedimensionale ruimtelijke verdeling van Gaussische blobs en een slechte differentiatie tussen objecten en achtergrond, wat 3DOD belemmert; (ii) Overmatige achtergrondblobs: 2D-beelden bevatten vaak talrijke achtergrondpixels, wat leidt tot dicht gereconstrueerde 3DGS met veel ruisachtige Gaussische blobs die de achtergrond vertegenwoordigen, wat de detectie negatief beïnvloedt. Om uitdaging (i) aan te pakken, maken we gebruik van het feit dat 3DGS-reconstructie is afgeleid van 2D-beelden, en stellen we een elegante en efficiënte oplossing voor door 2D Grensbegeleiding op te nemen om de ruimtelijke verdeling van Gaussische blobs aanzienlijk te verbeteren, resulterend in een duidelijkere differentiatie tussen objecten en hun achtergrond. Om uitdaging (ii) aan te gaan, stellen we een Box-Gefocuste Monsteringsstrategie voor met behulp van 2D-boxen om objectwaarschijnlijkheidsverdeling in driedimensionale ruimtes te genereren, waardoor effectieve probabilistische monstering in 3D mogelijk is om meer objectblobs te behouden en ruisachtige achtergrondblobs te verminderen. Profiterend van onze ontwerpen presteert onze 3DGS-DET aanzienlijk beter dan de toonaangevende NeRF-gebaseerde methode, NeRF-Det, met verbeteringen van +6.6 op [email protected] en +8.1 op [email protected] voor de ScanNet-dataset, en een indrukwekkende +31.5 op [email protected] voor de ARKITScenes-dataset.
We onderzoeken de diepte van de probleemoplossende capaciteiten van basisschoolwiskunde (GSM) van LLM's. Hiertoe evalueren we hun prestaties op paren van bestaande wiskundige vraagstukken, waarbij het antwoord op het tweede probleem afhankelijk is van het correct beantwoorden van het eerste probleem. Onze bevindingen tonen een significant redeneerverschil aan bij de meeste LLM's, namelijk een prestatieverschil tussen het oplossen van de samengestelde paren en het oplossen van elke vraag onafhankelijk. Dit verschil is meer uitgesproken bij kleinere, kostenefficiëntere en op wiskunde gespecialiseerde modellen. Bovendien hebben instructie-afstemmingsrecepten en codegeneratie verschillende effecten op LLM-formaten, terwijl finetuning op GSM kan leiden tot taakoverpassing. Onze analyse geeft aan dat grote redeneerverschillen niet worden veroorzaakt door lekken in de testset, maar door afleiding door aanvullende context en zwak redeneren in de tweede stap. Over het algemeen vertonen LLM's systematische verschillen in hun redeneervermogen, ondanks wat hun prestaties op standaard benchmarks aangeven.
Tekstrijke afbeeldingen, waarbij tekst fungeert als het centrale visuele element dat de algehele begrip stuurt, zijn veelvoorkomend in real-world toepassingen, zoals presentatieslides, gescande documenten en webpagina-screenshots. Taken met meerdere tekstrijke afbeeldingen zijn vooral uitdagend, omdat ze niet alleen begrip van de inhoud van individuele afbeeldingen vereisen, maar ook redeneren over interrelaties en logische stromen over meerdere visuele invoeren. Ondanks het belang van deze scenario's, hebben huidige multimodale grote taalmodellen (MLLM's) moeite met het afhandelen van dergelijke taken vanwege twee belangrijke uitdagingen: (1) de schaarste aan hoogwaardige instructie-afstemmingsdatasets voor tekstrijke multi-afbeeldingsscenario's, en (2) de moeilijkheid om beeldresolutie in balans te brengen met visuele kenmerksequentielengte. Om deze uitdagingen aan te pakken, stellen we \OnzeMethode voor, een MLLM die specifiek is ontworpen voor het afhandelen van visie-taal taken met meerdere tekstrijke afbeeldingen. Ten eerste hebben we ongeveer één miljoen hoogwaardige multimodale instructie-afstemmingsgegevens samengesteld, afgestemd op tekstrijke, multi-afbeeldingsscenario's. Ten tweede hebben we een adaptieve module voor het coderen van meerdere afbeeldingen met hoge resolutie ontwikkeld om dynamisch de toewijzing van visuele sequentielengte te optimaliseren op basis van de originele beeldverhoudingen en resoluties van de invoerafbeeldingen. Experimenten over een breed scala van benchmarks tonen de superieure mogelijkheden van ons model in tekstrijke, multi-afbeeldingsevaluaties en de competitieve prestaties in algemene domeinevaluaties.
Beloningsmodellen zijn essentieel voor het afstemmen van modellen om instructies te volgen en worden doorgaans getraind volgens een van twee populaire paradigma's: de Bradley-Terry-stijl of de Regressie-stijl. Er is echter een gebrek aan bewijs dat de ene benadering beter is dan de andere, wanneer deze adequaat zijn afgestemd op de gegevens. Dit komt voornamelijk doordat deze benaderingen gegevens vereisen die zijn verzameld in verschillende (maar onverenigbare) formaten, wat betekent dat adequaat afgestemde gegevens niet beschikbaar zijn in bestaande openbare datasets. Om dit probleem aan te pakken, stellen we voorkeursannotaties (ontworpen voor Bradley-Terry-training) beschikbaar om bestaande beoordelingen (ontworpen voor Regressie-stijl training) aan te vullen in de HelpSteer2-dataset. Om de interpretatie van gegevens te verbeteren, worden voorkeursannotaties vergezeld van menselijke rechtvaardigingen. Met behulp van deze gegevens voeren we de eerste directe vergelijking uit van Bradley-Terry- en Regressiemodellen wanneer deze adequaat zijn afgestemd op de gegevens. Op basis van inzichten die zijn afgeleid uit een dergelijke vergelijking stellen we een nieuwe benadering voor om Bradley-Terry- en Regressie-beloningsmodellering te combineren. Een Llama-3.1-70B-Instructiemodel afgestemd met deze benadering scoort 94,1 op RewardBench en komt als beste uit de bus van meer dan 140 beloningsmodellen vanaf 1 oktober 2024. We tonen ook de effectiviteit van dit beloningsmodel bij het afstemmen van modellen om instructies te volgen in RLHF. We stellen deze dataset (CC-BY-4.0-licentie) beschikbaar op https://huggingface.co/datasets/nvidia/HelpSteer2 en maken het getrainde Beloningsmodel openbaar op https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
We onderzoeken LoRA in gefedereerd leren door de asymmetrieanalyse van de geleerde A- en B-matrices te bekijken. Hierbij ontdekken we dat A-matrices verantwoordelijk zijn voor het leren van algemene kennis, terwijl B-matrices zich richten op het vastleggen van klantspecifieke kennis. Op basis van deze bevinding introduceren we Federated Share-A Low-Rank Adaptation (FedSA-LoRA), die twee trainbare matrices A en B met een lage rang gebruikt om de gewichtsaanpassing te modelleren, maar alleen A-matrices worden gedeeld met de server voor aggregatie. Bovendien duiken we in de relatie tussen de geleerde A- en B-matrices in andere LoRA-varianten, zoals rsLoRA en VeRA, waarbij we een consistente patroon onthullen. Als gevolg hiervan breiden we onze FedSA-LoRA methode uit naar deze LoRA-varianten, resulterend in FedSA-rsLoRA en FedSA-VeRA. Op deze manier stellen we een algemeen paradigma vast voor het integreren van LoRA met FL, waarbij we richtlijnen bieden voor toekomstig werk aan daaropvolgende LoRA-varianten gecombineerd met FL. Uitgebreide experimentele resultaten op taken voor natuurlijke taalbegrip en -generatie tonen de effectiviteit van de voorgestelde methode aan.
Het praktische gebruik van tekst-naar-afbeelding generatie is geëvolueerd van eenvoudige, monolithische modellen naar complexe workflows die meerdere gespecialiseerde componenten combineren. Hoewel op workflows gebaseerde benaderingen kunnen leiden tot verbeterde beeldkwaliteit, vereist het ontwerpen van effectieve workflows aanzienlijke expertise, vanwege het grote aantal beschikbare componenten, hun complexe onderlinge afhankelijkheid en hun afhankelijkheid van de generatieprompt. Hier introduceren we de nieuwe taak van prompt-aangepaste workflowgeneratie, waarbij het doel is om automatisch een workflow aan te passen aan elke gebruikersprompt. We stellen twee op LLM gebaseerde benaderingen voor om deze taak aan te pakken: een op afstemming gebaseerde methode die leert van gebruikersvoorkeursgegevens, en een trainingsvrije methode die de LLM gebruikt om bestaande stromen te selecteren. Beide benaderingen leiden tot verbeterde beeldkwaliteit in vergelijking met monolithische modellen of generieke, prompt-onafhankelijke workflows. Ons werk toont aan dat prompt-afhankelijke stroomvoorspelling een nieuwe weg biedt om de kwaliteit van tekst-naar-afbeelding generatie te verbeteren, als aanvulling op bestaande onderzoeksrichtingen in het vakgebied.
Neurale metrieken voor machinale vertalingsevaluatie zijn steeds prominenter geworden vanwege hun superieure correlatie met menselijke beoordelingen in vergelijking met traditionele lexicaire metrieken. Onderzoekers hebben daarom neurale metrieken toegepast via kwaliteitsgeïnformeerde decoderingsstrategieën, waardoor betere resultaten worden behaald dan op waarschijnlijkheid gebaseerde methoden. Met de opkomst van Grote Taalmodellen (GTM's) hebben voorkeursgebaseerde aligneringstechnieken aandacht gekregen vanwege hun potentieel om de vertaalkwaliteit te verbeteren door modelgewichten rechtstreeks te optimaliseren op voorkeuren die worden geïnduceerd door kwaliteitsschattingen. Deze studie richt zich op Contrastieve VoorkeursOptimalisatie (CVO) en voert uitgebreide experimenten uit om de impact van voorkeursgebaseerde alignering op vertaalkwaliteit te evalueren. Onze bevindingen geven aan dat hoewel CVO consequent beter presteert dan Onder toezicht staand Fijnafstemmen (OTS) op hoogwaardige gegevens met betrekking tot de aligneringsmetriek, dit kan leiden tot instabiliteit over verschillende evaluatiemetrieken, met name tussen neurale en lexicaire metrieken. Daarnaast tonen we aan dat uitsluitend vertrouwen op het basismodel voor het genereren van kandidaatvertalingen prestaties oplevert die vergelijkbaar zijn met het gebruik van meerdere externe systemen, terwijl betere consistentie over verschillende evaluatiemetrieken wordt gegarandeerd.
De opkomst van grondleggende modellen (GM's), in combinatie met regelgevende inspanningen die zich richten op hun risico's en impact, heeft aanzienlijke interesse gewekt in open-source modellen. Echter, bestaande spraak GM's (SGM's) voldoen niet volledig aan de open-source principes, zelfs als anders wordt beweerd, aangezien geen enkele bestaande SGM modelgewichten, code en trainingsdata openbaar beschikbaar heeft onder open-source voorwaarden. In dit werk zetten we de eerste stap om deze lacune te vullen door ons te richten op de 24 officiële talen van de Europese Unie (EU). We verzamelen geschikte trainingsdata door automatische spraakherkenningsdatasets en ongelabelde spraakcorpora te onderzoeken die voldoen aan open-source licenties, met een totaal van 950k uur. Daarnaast publiceren we automatische transcripties voor 441k uur aan ongelabelde data onder de toegeeflijke CC-BY licentie, waardoor de ontwikkeling van open-source SGM's voor de EU-talen wordt vergemakkelijkt.
Hoewel grote taalmodellen (LLM's) uitzonderlijke capaciteiten hebben getoond in het begrijpen van complexe vragen en het uitvoeren van geavanceerde taken, zijn hun generalisatievermogens vaak diep verweven met memorisatie, wat een nauwkeurigere evaluatie noodzakelijk maakt. Om deze uitdaging aan te pakken, introduceren we Scylla, een dynamisch evaluatiekader dat kwantitatief de generalisatievermogens van LLM's meet. Scylla ontwart generalisatie van memorisatie door de modelprestaties te beoordelen op zowel in-distributie (ID) als out-of-distributie (OOD) gegevens via 20 taken over 5 niveaus van complexiteit. Via uitgebreide experimenten onthullen we een niet-monotone relatie tussen taakcomplexiteit en het prestatieverschil tussen ID- en OOD-gegevens, wat we de generalisatievallei noemen. Specifiek onthult dit fenomeen een kritische drempel - aangeduid als kritische complexiteit - waarop de afhankelijkheid van niet-generaliseerbaar gedrag piekt, wat het bovengrens aangeeft van de generalisatievermogens van LLM's. Naarmate de modelgrootte toeneemt, verschuift de kritische complexiteit naar hogere niveaus van taakcomplexiteit, wat suggereert dat grotere modellen meer complexe redeneertaken aankunnen voordat ze te veel vertrouwen op memorisatie. Door gebruik te maken van Scylla en het concept van kritische complexiteit, benchmarken we 28LLM's, waaronder zowel open-source modellen zoals LLaMA en Qwen families, en closed-source modellen zoals Claude en GPT, wat zorgt voor een robuustere evaluatie en het vestigen van een duidelijker begrip van de generalisatievermogens van LLM's.
Het modelleren van menselijke voorkeuren is cruciaal voor het afstemmen van basismodellen op menselijke waarden. Traditionele beloningsmodelleringsmethoden, zoals het Bradley-Terry (BT) beloningsmodel, schieten tekort in expressiviteit, met name bij het omgaan met intransitieve voorkeuren. Hoewel begeleide paarvoorkeursmodellen (PairPM) algemene voorkeuren kunnen uitdrukken, is hun implementatie zeer ad-hoc en kan deze geen consistente voorkeurswaarschijnlijkheid van vergeleken paren garanderen. Bovendien leggen ze hoge computationele kosten op vanwege hun kwadratische vraagcomplexiteit bij het vergelijken van meerdere antwoorden. In dit artikel introduceren we voorkeursrepresentatie leren, een benadering die antwoorden inbedt in een latente ruimte om complexe voorkeursstructuren efficiënt vast te leggen, met een lineaire vraagcomplexiteit tot gevolg. Daarnaast stellen we voorkeurscore-gebaseerde Algemene VoorkeursOptimalisatie (GPO) voor, die beloningsgebaseerd versterkend leren van menselijke feedback generaliseert. Experimentele resultaten tonen aan dat ons Algemene Voorkeursrepresentatiemodel (GPM) het BT beloningsmodel overtreft op de RewardBench benchmark met een marge tot 5,6% en cyclische voorkeuren effectief modelleert waar elk BT beloningsmodel zich gedraagt als een willekeurige gok. Bovendien tonen evaluaties op neventaken zoals AlpacaEval2.0 en MT-Bench, na het post-trainen van het taalmodel met GPO en ons algemene voorkeursmodel, aanzienlijke prestatieverbeteringen met marges tot 9,3%. Deze bevindingen geven aan dat onze methode de afstemming van basismodellen op genuanceerde menselijke waarden kan verbeteren. De code is beschikbaar op https://github.com/general-preference/general-preference-model.
Grote taalmodellen hebben aanzienlijk potentieel aangetoond als de informatie-toegangsmotoren van de volgende generatie. Hun betrouwbaarheid wordt echter belemmerd door problemen van hallucinatie en het genereren van niet-feitelijke inhoud. Dit is met name problematisch bij lange antwoorden, waarbij het beoordelen en waarborgen van feitelijke nauwkeurigheid complex is. In dit artikel pakken we deze kloof aan door FactAlign voor te stellen, een nieuw uitlijningskader dat is ontworpen om de feitelijkheid van lange antwoorden van LLM's te verbeteren terwijl hun behulpzaamheid behouden blijft. We introduceren fKTO, een fijnmazig, zinsniveau uitlijningsalgoritme dat de Kahneman-Tversky Optimization (KTO) uitlijningsmethode uitbreidt. Door recente vooruitgang in automatische feitelijkheidsevaluatie te benutten, maakt FactAlign gebruik van fijnmazige feitelijkheidsbeoordelingen om het uitlijningsproces te sturen. Onze experimenten met open domein prompts en informatiezoekende vragen tonen aan dat FactAlign de feitelijke nauwkeurigheid van LLM-antwoorden aanzienlijk verbetert, terwijl ook hun behulpzaamheid toeneemt. Verdere analyses tonen aan dat FactAlign in staat is om LLM's te trainen om meer informatie te verstrekken zonder feitelijke precisie te verliezen, waardoor de feitelijke F1-score verbetert. Onze broncode, datasets en getrainde modellen zijn openbaar beschikbaar op https://github.com/MiuLab/FactAlign
Wij presenteren Exact Volumetric Ellipsoid Rendering (EVER), een methode voor real-time differentieerbare emissie-alleen volumerendering. In tegenstelling tot de recente rasterisatiegebaseerde benadering door 3D Gaussian Splatting (3DGS), maakt onze op primitieven gebaseerde representatie exacte volumerendering mogelijk, in plaats van alfa-compositie van 3D Gaussian billboards. Als zodanig heeft onze formulering, in tegenstelling tot 3DGS, geen last van popping artifacts en dichtheid afhankelijk van het zicht, maar behaalt nog steeds framerates van ongeveer 30 FPS bij 720p op een NVIDIA RTX4090. Aangezien onze benadering is gebaseerd op ray tracing, maakt het effecten mogelijk zoals onscherpte en cameravervorming (bijv. van fisheye-camera's), die moeilijk te bereiken zijn met rasterisatie. We tonen aan dat onze methode nauwkeuriger is met minder blending problemen dan 3DGS en vervolgonderzoek naar view-consistente rendering, vooral bij de uitdagende grootschalige scènes uit de Zip-NeRF dataset waar het de scherpste resultaten behaalt onder real-time technieken.
Hoewel recente ontwikkelingen in Tekst-naar-Spraak (TTS) technologie natuurlijke en expressieve spraak produceren, ontbreekt het gebruikers aan de mogelijkheid om emotie te selecteren en de intensiteit te regelen. Wij stellen EmoKnob voor, een framework dat fijnmazige emotieregeling in spraaksynthese mogelijk maakt met enkele demonstratieve voorbeelden van willekeurige emoties. Ons framework maakt gebruik van de expressieve sprekersrepresentatieruimte die mogelijk is gemaakt door recente ontwikkelingen in basisstemkloningsmodellen. Op basis van de few-shot mogelijkheid van ons emotieregelingsframework stellen we twee methoden voor om emotieregeling toe te passen op emoties beschreven door open-eindige tekst, waardoor een intuïtieve interface ontstaat voor het regelen van een divers scala aan genuanceerde emoties. Om een meer systematisch veld voor emotionele spraaksynthese te vergemakkelijken, introduceren we een reeks evaluatiemetrics die zijn ontworpen om de geloofwaardigheid en herkenbaarheid van emotieregelingsframeworks rigoureus te beoordelen. Door middel van objectieve en subjectieve evaluaties tonen we aan dat ons emotieregelingsframework emoties effectief in spraak incorporeert en de emotionele expressiviteit van commerciële TTS-diensten overtreft.
Recente ontwikkelingen in Video Large Language Models (Video-LLMs) hebben hun grote potentieel aangetoond in algemene video begripsvorming. Om de significantie van deze modellen te verifiëren, zijn verschillende benchmarks voorgesteld om hun capaciteiten in verschillende scenario's te diagnosticeren. Echter, bestaande benchmarks evalueren modellen slechts door middel van vraag-antwoord op videoniveau, waarbij fijnmazige gebeurtenisniveau-beoordeling en taakdiversiteit ontbreken. Om deze lacune op te vullen, introduceren we E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), een grootschalige en hoogwaardige benchmark voor open-ended gebeurtenisniveau video begripsvorming. Gecategoriseerd binnen een 3-niveaus taak-taxonomie, omvat E.T. Bench 7,3K voorbeelden onder 12 taken met 7K video's (totaal 251,4 uur) onder 8 domeinen, wat uitgebreide evaluaties biedt. We hebben 8 Image-LLMs en 12 Video-LLMs uitgebreid geëvalueerd op onze benchmark, en de resultaten tonen aan dat state-of-the-art modellen voor grofmazig (videoniveau) begrip moeite hebben met het oplossen van onze fijnmazige taken, zoals het verankeren van gebeurtenissen van interesse binnen video's, grotendeels vanwege de korte videolengte, onjuiste tijdsrepresentaties en gebrek aan multi-gebeurtenis trainingsdata. Met de focus op deze kwesties stellen we verder een sterke basismodel voor, E.T. Chat, samen met een instructie-afstemmingsdataset E.T. Instruct 164K die is afgestemd op fijnmazige gebeurtenisniveau begripsvorming. Onze eenvoudige maar effectieve oplossing toont superieure prestaties in meerdere scenario's.
Grote taalmodellen excelleren in creatieve generatie, maar blijven worstelen met de problemen van hallucinatie en vooringenomenheid. Hoewel retrieval-augmented generation (RAG) een kader biedt om de reacties van LLM's te baseren op nauwkeurige en actuele informatie, roept het nog steeds de vraag op van vooringenomenheid: welke bronnen moeten worden geselecteerd voor opname in de context? En hoe moet hun belang worden gewogen? In dit artikel bestuderen we de uitdaging van cross-linguale RAG en presenteren we een dataset om de robuustheid van bestaande systemen te onderzoeken bij het beantwoorden van vragen over geopolitieke geschillen, die zich bevinden op het snijvlak van linguïstische, culturele en politieke grenzen. Onze dataset is afkomstig van Wikipedia-pagina's met informatie die relevant is voor de gegeven vragen en we onderzoeken de impact van het toevoegen van extra context, evenals de samenstelling van deze context wat betreft taal en bron, op de reactie van een LLM. Onze resultaten tonen aan dat bestaande RAG-systemen blijven worstelen met cross-linguale toepassingen en lijden onder een gebrek aan consistentie wanneer ze worden geconfronteerd met tegenstrijdige informatie in meerdere talen. We presenteren casestudies om deze kwesties te illustreren en schetsen stappen voor toekomstig onderzoek om deze uitdagingen aan te pakken. We stellen onze dataset en code openbaar beschikbaar op https://github.com/manestay/bordIRlines.
Visie-taalmodellen (VLM's) zijn essentieel voor contextueel begrip van zowel visuele als tekstuele informatie. Hun kwetsbaarheid voor kwaadaardig gemanipuleerde invoer brengt echter aanzienlijke risico's met zich mee, leidend tot gecompromitteerde resultaten en zorgen over de betrouwbaarheid van VLM-geïntegreerde toepassingen. Het detecteren van deze kwaadaardige prompts is dus cruciaal voor het behouden van vertrouwen in VLM-generaties. Een belangrijke uitdaging bij het ontwikkelen van een beschermende prompt-classifier is het gebrek aan een grote hoeveelheid gelabelde onschuldige en kwaadaardige gegevens. Om dit probleem aan te pakken, introduceren we VLMGuard, een nieuw leerframework dat gebruikmaakt van de ongelabelde gebruikersprompts in het wild voor de detectie van kwaadaardige prompts. Deze ongelabelde prompts, die natuurlijk ontstaan wanneer VLM's in de open wereld worden ingezet, bestaan uit zowel onschuldige als kwaadaardige informatie. Om de ongelabelde gegevens te benutten, presenteren we een geautomatiseerde kwaadaardigheidsschattingsscore om onderscheid te maken tussen onschuldige en kwaadaardige voorbeelden binnen deze ongelabelde mix, waardoor het trainen van een binaire prompt-classifier mogelijk wordt. Opmerkelijk genoeg vereist ons framework geen extra menselijke annotaties, wat sterke flexibiliteit en praktisch nut biedt voor real-world toepassingen. Uitgebreid experiment toont aan dat VLMGuard superieure detectieresultaten behaalt en aanzienlijk beter presteert dan state-of-the-art methoden. Disclaimer: Dit artikel kan aanstootgevende voorbeelden bevatten; lezersdiscretie is geadviseerd.
Diffusie Transformers (DiTs) hebben aan populariteit gewonnen vanwege hun uitstekende schaalbaarheid en buitengewone prestaties bij generatieve taken. Echter, hun aanzienlijke inferentiekosten belemmeren praktische implementatie. Het kenmerkcache-mechanisme, dat het opslaan en ophalen van redundante berekeningen over tijdstappen omvat, biedt hoop om de inferentietijd per stap te verminderen in diffusiemodellen. De meeste bestaande cache-methoden voor DiT zijn handmatig ontworpen. Hoewel de op leermethoden gebaseerde aanpak probeert strategieën adaptief te optimaliseren, lijdt het onder inconsistenties tussen training en inferentie, wat zowel de prestaties als de versnelling vermindert. Na gedetailleerde analyse wijzen we aan dat deze inconsistenties voornamelijk voortkomen uit twee aspecten: (1) Voorafgaande Tijdstapverwaarlozing, waarbij training het effect van cachegebruik in eerdere tijdstappen negeert, en (2) Doelstelling Mismatch, waarbij het trainingsdoel (afstemmen van voorspelde ruis in elk tijdstip) afwijkt van het doel van inferentie (het genereren van de hoogwaardige afbeelding). Om deze inconsistenties te verlichten, stellen we HarmoniCa voor, een nieuw methode die training en inferentie harmoniseert met een nieuw op leermethoden gebaseerd Caching-framework gebouwd op Stapsgewijze Denoising Training (SDT) en Begeleide Doelstelling voor Afbeeldingsfouten (IEPO). In vergelijking met het traditionele trainingsparadigma behoudt de nieuw voorgestelde SDT de continuïteit van het denoising-proces, waardoor het model informatie kan benutten van eerdere tijdstappen tijdens training, vergelijkbaar met de manier waarop het werkt tijdens inferentie. Verder ontwerpen we IEPO, dat een efficiënt proxy-mechanisme integreert om de uiteindelijke afbeeldingsfout te benaderen die wordt veroorzaakt door het hergebruik van de gecachte functie. Daarom helpt IEPO bij het balanceren van de uiteindelijke beeldkwaliteit en cachegebruik, waardoor het probleem van training wordt opgelost dat alleen de impact van cachegebruik op de voorspelde output bij elk tijdstip overweegt.
In de poging om autonome robots acties te laten ondernemen, is taakplanning een grote uitdaging die vereist dat hoog-niveau taakbeschrijvingen worden vertaald naar actiesequenties op lange termijn. Ondanks recente vooruitgang in taalmodelagenten, blijven ze gevoelig voor planningsfouten en beperkt in hun vermogen om vooruit te plannen. Om deze beperkingen in robotplanning aan te pakken, pleiten wij voor een zelfverfijnend schema dat een conceptueel plan iteratief verfijnt tot een evenwicht is bereikt. Opmerkelijk genoeg kan dit proces end-to-end worden geoptimaliseerd vanuit een analytisch perspectief zonder de noodzaak van extra verificatoren of beloningsmodellen te cureren, waardoor we zelfverfijnende planners kunnen trainen op een eenvoudige supervisie-leerwijze. Ondertussen is een genest modelleerprocedure voor evenwichtssequenties ontwikkeld voor efficiënte gesloten-lus planning die nuttige feedback van de omgeving (of een intern wereldmodel) incorporeert. Onze methode wordt geëvalueerd op de VirtualHome-Env benchmark, waarbij geavanceerde prestaties worden getoond met een betere schaalbaarheid voor inferentieberekening. De code is beschikbaar op https://github.com/Singularity0104/equilibrium-planner.
Diepe leeroptimalisatoren worden vaak gemotiveerd door een mix van convexe en benaderende tweede-orde theorie. We selecteren drie van dergelijke methoden - Adam, Shampoo en Prodigy - en betogen dat elke methode in plaats daarvan begrepen kan worden als een eerst-orde methode zonder convexe aannames. Sterker nog, nadat de exponentiële bewegende gemiddelden zijn uitgeschakeld, is elke methode equivalent aan steilste afdaling onder een bepaalde norm. Door deze observatie te generaliseren, schetsen we een nieuw ontwerpruimte voor trainingsalgoritmen. Verschillende operatornormen moeten worden toegewezen aan verschillende tensors op basis van de rol die de tensor speelt binnen het netwerk. Bijvoorbeeld, terwijl lineaire en embedding lagen dezelfde gewichtsruimte van R^{mtimes n} kunnen hebben, spelen deze lagen verschillende rollen en zouden verschillende normen moeten worden toegewezen. We hopen dat dit idee van zorgvuldig metrizeren van de neurale architectuur zou kunnen leiden tot meer stabiele, schaalbare en inderdaad snellere training.
Het omgaan met lange invoercontexten blijft een aanzienlijke uitdaging voor Grote Taalmodellen (LLMs), met name in omgevingen met beperkte middelen zoals mobiele apparaten. Ons werk heeft tot doel deze beperking aan te pakken door InfiniPot te introduceren, een nieuw KV-cachebeheersysteem dat is ontworpen om vooraf getrainde LLMs in staat te stellen uitgebreide sequenties binnen vaste geheugenbeperkingen efficiënt te beheren, zonder dat er extra training nodig is. InfiniPot maakt gebruik van Continual Context Distillation (CCD), een iteratief proces dat essentiële informatie comprimeert en behoudt door middel van nieuwe belangrijkheidsmetrieken, waarbij kritieke gegevens effectief worden behouden zelfs zonder toegang tot toekomstige context. Onze uitgebreide evaluaties tonen aan dat InfiniPot aanzienlijk beter presteert dan modellen die zijn getraind voor lange contexten in verschillende NLP-taken, waarmee de doeltreffendheid en veelzijdigheid ervan worden vastgesteld. Dit werk vertegenwoordigt een aanzienlijke vooruitgang om LLMs toepasbaar te maken in een breder scala van real-world scenario's.
De systematische evaluatie van spraakscheiding en -verbeteringsmodellen onder omstandigheden met bewegende geluidsbronnen vereist doorgaans uitgebreide gegevenssets met diverse scenario's. Echter, real-world datasets bevatten vaak onvoldoende gegevens om te voldoen aan de trainings- en evaluatievereisten van modellen. Hoewel synthetische datasets een grotere hoeveelheid gegevens bieden, ontbreekt het hun akoestische simulaties aan realisme. Hierdoor voldoen noch real-world noch synthetische datasets effectief aan praktische behoeften. Om deze problemen aan te pakken, introduceren we SonicSim, een synthetische toolkit ontworpen om zeer aanpasbare gegevens te genereren voor bewegende geluidsbronnen. SonicSim is ontwikkeld op basis van het embodied AI simulatieplatform, Habitat-sim, dat multi-level aanpassingen ondersteunt, waaronder scène-niveau, microfoon-niveau en bron-niveau, en zo meer diverse synthetische gegevens genereert. Door gebruik te maken van SonicSim hebben we een benchmark dataset voor bewegende geluidsbronnen geconstrueerd, SonicSet, met behulp van de Librispeech, de Freesound Dataset 50k (FSD50K) en Free Music Archive (FMA), en 90 scènes van de Matterport3D om spraakscheiding en -verbeteringsmodellen te evalueren. Daarnaast hebben we om de verschillen tussen synthetische gegevens en real-world gegevens te valideren, willekeurig 5 uur ruwe gegevens zonder galm geselecteerd uit de SonicSet validatieset om een real-world spraakscheiding dataset op te nemen, die vervolgens werd vergeleken met de overeenkomstige synthetische datasets. Op vergelijkbare wijze hebben we de real-world spraakverbeteringsdataset RealMAN gebruikt om het akoestische verschil tussen andere synthetische datasets en de SonicSet dataset voor spraakverbetering te valideren. De resultaten geven aan dat de synthetische gegevens gegenereerd door SonicSim effectief kunnen generaliseren naar real-world scenario's. Een demo en code zijn openbaar beschikbaar op https://cslikai.cn/SonicSim/.