Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen een nieuwe financiële benchmark voor met een lange context, FailSafeQA genaamd, ontworpen om de robuustheid en contextgevoeligheid van LLM's te testen tegen zes variaties in menselijke-interactie-interacties in op LLM gebaseerde vraag-antwoordsystemen binnen de financiële sector. We concentreren ons op twee casestudies: Vraagfalen en Contextfalen. In het scenario van Vraagfalen verstoren we de oorspronkelijke vraag om te variëren in domeinkennis, volledigheid en taalkundige nauwkeurigheid. In het geval van Contextfalen simuleren we het uploaden van verslechterde, irrelevante en lege documenten. We maken gebruik van de LLM-als-rechter methodologie met Qwen2.5-72B-Instruct en gebruiken fijnmazige beoordelingscriteria om Robuustheid, Contextgronding en Nalevingscores te definiëren en te berekenen voor 24 kant-en-klare modellen. De resultaten suggereren dat hoewel sommige modellen uitblinken in het beperken van inputverstoringen, ze een balans moeten vinden tussen robuust antwoorden en het vermogen om niet te hallucineren. Opmerkelijk is dat Palmyra-Fin-128k-Instruct, erkend als het meest conforme model, een sterke basisondersteuning behield maar uitdagingen ondervond bij het handhaven van robuuste voorspellingen in 17% van de testgevallen. Aan de andere kant fabriceerde het meest robuuste model, OpenAI o3-mini, informatie in 41% van de geteste gevallen. De resultaten tonen aan dat zelfs hoog presterende modellen aanzienlijke ruimte hebben voor verbetering en benadrukken de rol van FailSafeQA als een tool voor het ontwikkelen van LLM's geoptimaliseerd voor betrouwbaarheid in financiële toepassingen. De dataset is beschikbaar op: https://huggingface.co/datasets/Writer/FailSafeQA
We tonen aan dat versterkend leren toegepast op grote taalmodellen (LLM's) de prestaties op complexe codeer- en redeneertaken aanzienlijk verbetert. Daarnaast vergelijken we twee algemene redeneringsmodellen - OpenAI o1 en een vroeg checkpoint van o3 - met een domeinspecifiek systeem, o1-ioi, dat handmatig ontworpen inferentiestrategieën gebruikt die zijn ontwikkeld om deel te nemen aan de Internationale Olympiade in Informatica (IOI) van 2024. We namen live deel aan IOI 2024 met o1-ioi en behaalden, met handmatig gemaakte testtijdstrategieën, een plaats in het 49e percentiel. Onder minder strikte competitiebeperkingen behaalde o1-ioi een gouden medaille. Echter, bij het evalueren van latere modellen zoals o3, vinden we dat o3 goud behaalt zonder handmatig gemaakte domeinspecifieke strategieën of minder strikte beperkingen. Onze bevindingen tonen aan dat hoewel gespecialiseerde pipelines zoals o1-ioi solide verbeteringen opleveren, het opgeschaalde, algemene o3-model deze resultaten overtreft zonder te vertrouwen op handmatig gemaakte inferentieheuristieken. Opmerkelijk is dat o3 een gouden medaille behaalt op de IOI van 2024 en een Codeforces-beoordeling behaalt die gelijk is aan die van elite menselijke concurrenten. Over het algemeen geven deze resultaten aan dat het opschalen van algemeen versterkend leren, in plaats van te vertrouwen op domeinspecifieke technieken, een robuuste weg biedt naar toonaangevende AI in redeneerdomeinen, zoals competitief programmeren.
Redeneren is een fundamentele vaardigheid van Grote Taalmodellen. Terwijl eerdere onderzoeken zich voornamelijk richten op het verbeteren van specifieke vaardigheden zoals wiskunde of codegeneratie, blijft het verbeteren van prestaties op veel andere redeneertaken uitdagend vanwege schaarse en gefragmenteerde trainingsgegevens. Om dit probleem aan te pakken, stellen we CodeI/O voor, een nieuw benadering die systematisch diverse redeneerpatronen die inherent zijn aan contextueel verankerde codes samenperst, door de oorspronkelijke code om te zetten in een voorspellingsformaat voor code-invoer-uitvoer. Door modellen te trainen om invoer/uitvoer te voorspellen gegeven code en testgevallen volledig in natuurlijke taal als keten-van-denken (CoT) rationales, stellen we ze bloot aan universele redeneerprimitieven -- zoals logische stroomplanning, zoeken in toestandsruimten, beslissingsboomtraversie en modulaire decompositie -- terwijl we gestructureerd redeneren ontkoppelen van codespecifieke syntaxis en procedurele nauwkeurigheid behouden. Experimentele resultaten tonen aan dat CodeI/O leidt tot consistente verbeteringen over symbolisch, wetenschappelijk, logisch, wiskundig & numeriek en gezond verstand redeneertaken. Door de bestaande echte uitvoerresultaten te matchen of de code opnieuw uit te voeren met voorspelde invoer, kunnen we elke voorspelling verifiëren en de CoT's verder verbeteren door middel van herziening in meerdere stappen, resulterend in CodeI/O++ en het bereiken van hogere prestaties. Onze gegevens en modellen zijn beschikbaar op https://github.com/hkust-nlp/CodeIO.
Grote redeneringsmodellen (LRM's) pakken complexe redeneervraagstukken aan door lange gedachtegangen (Long CoT) te volgen die reflectie, terugkoppeling en zelfvalidatie bevatten. De trainingsmethoden en gegevensvereisten om Long CoT op te roepen blijven echter slecht begrepen. In dit werk vinden we dat een Groot Taalmodel (LLM) effectief lang CoT-redeneren kan leren door data-efficiënte begeleide fijnafstemming (SFT) en parameter-efficiënte lage-rang aanpassing (LoRA). Met slechts 17k lange CoT-trainingsvoorbeelden behaalt het Qwen2.5-32B-Instruct-model aanzienlijke verbeteringen op een breed scala aan wiskunde- en programmeerbenchmarks, waaronder 56,7% (+40,0%) op AIME 2024 en 57,0% (+8,1%) op LiveCodeBench, concurrerend met de score van het eigen o1-preview-model van 44,6% en 59,1%. Belangrijker nog is dat we ontdekken dat de structuur van Long CoT cruciaal is voor het leerproces, terwijl de inhoud van individuele redeneerstappen minimaal effect heeft. Verstoringen die de inhoud beïnvloeden, zoals trainen op onjuiste voorbeelden of redeneersleutelwoorden verwijderen, hebben weinig invloed op de prestaties. Daarentegen degraderen structurele wijzigingen die logische consistentie in de Long CoT verstoren, zoals schudden of verwijderen van redeneerstappen, de nauwkeurigheid aanzienlijk. Bijvoorbeeld, een model dat is getraind op Long CoT-voorbeelden met onjuiste antwoorden behaalt nog steeds slechts 3,2% lagere nauwkeurigheid in vergelijking met training met volledig correcte voorbeelden. Deze inzichten verdiepen ons begrip van hoe redeneervermogens in LLM's kunnen worden opgeroepen en benadrukken belangrijke overwegingen voor efficiënte training van de volgende generatie redeneringsmodellen. Dit is het academische artikel van ons eerder uitgebrachte Sky-T1-32B-Preview-model. De codes zijn beschikbaar op https://github.com/NovaSky-AI/SkyThought.
Het voorspellen van de beweging van aandelen, een fundamentele taak in financiële tijdreeksvoorspelling, vereist het identificeren en ophalen van kritieke beïnvloedende factoren uit grote hoeveelheden tijdreeksgegevens. Bestaande methoden voor ophalen op basis van teksttraining of numerieke gelijkenis schieten echter tekort bij het omgaan met complexe financiële analyses. Om dit aan te pakken, stellen we het eerste ophaal-versterkte generatie (RAG) framework voor voor financiële tijdreeksvoorspelling, met drie belangrijke innovaties: een fijn afgestemd 1B-parameter groot taalmodel (StockLLM) als ruggengraat, een nieuw kandidaatselectiemethode die gebruikmaakt van LLM-feedback, en een trainingsdoel dat de gelijkenis tussen zoekopdrachten en historisch significante sequenties maximaliseert. Dit stelt onze ophaalder, FinSeer, in staat om betekenisvolle patronen bloot te leggen terwijl ruis in complexe financiële gegevens wordt geminimaliseerd. We construeren ook nieuwe datasets waarin financiële indicatoren en historische aandelenkoersen zijn geïntegreerd om FinSeer te trainen en zorgen voor een robuuste evaluatie. Experimentele resultaten tonen aan dat ons RAG-framework beter presteert dan alleen StockLLM en willekeurig ophalen, waarbij de effectiviteit ervan wordt benadrukt, terwijl FinSeer bestaande ophaalmethoden overtreft, met een 8% hogere nauwkeurigheid op BIGDATA22 en het ophalen van meer impactvolle sequenties. Dit werk benadrukt het belang van op maat gemaakte ophaalmodellen in financiële voorspellingen en biedt een nieuw framework voor toekomstig onderzoek.
In dit technische rapport presenteren we Magic 1-For-1 (Magic141), een efficiënt videogeneratiemodel met geoptimaliseerd geheugenverbruik en inferentievertraging. Het belangrijkste idee is eenvoudig: de tekst-naar-video generatietaak opsplitsen in twee afzonderlijke eenvoudigere taken voor diffusiestapdestillatie, namelijk tekst-naar-afbeeldingsgeneratie en afbeeldings-naar-videogeneratie. We verifiëren dat met hetzelfde optimalisatiealgoritme de afbeeldings-naar-videotaak inderdaad gemakkelijker te convergeren is dan de tekst-naar-videotaak. We verkennen ook een reeks optimalisatietrucjes om de rekenkundige kosten van het trainen van de afbeeldings-naar-video (I2V) modellen te verminderen vanuit drie aspecten: 1) modelconvergentieversnelling door het gebruik van een multimodale voorwaardelijke injectie; 2) inferentievertragingversnelling door het toepassen van een adversiële stapdestillatie, en 3) optimalisatie van inferentiegeheugenkosten met parametersparsificatie. Met behulp van deze technieken zijn we in staat om 5-seconden videoclips binnen 3 seconden te genereren. Door een testtijd schuifraam toe te passen, kunnen we een minuut lange video genereren binnen één minuut met aanzienlijk verbeterde visuele kwaliteit en bewegingsdynamiek, waarbij gemiddeld minder dan 1 seconde wordt besteed aan het genereren van videoclips van 1 seconde. We voeren een reeks verkennende onderzoeken uit om de optimale afweging tussen rekenkundige kosten en videokwaliteit tijdens diffusiestapdestillatie te vinden en hopen dat dit een goed basismodel kan zijn voor open-source verkenningen. De code en de modelgewichten zijn beschikbaar op https://github.com/DA-Group-PKU/Magic-1-For-1.
We bieden een empirisch onderzoek naar het potentieel van vooraf trainen van visie-taalmodellen op een ongekende schaal: 100 miljard voorbeelden. We constateren dat de prestaties van het model op dit niveau verzadigen op veel voorkomende Westers-gecentreerde classificatie- en ophaalbeproevingen, zoals COCO-ondertitels. Desalniettemin behalen taken van culturele diversiteit aanzienlijk meer winst uit de webgegevens op de schaal van 100 miljard, dankzij de dekking van zeldzame concepten. Bovendien analyseren we de meertaligheid van het model en tonen winsten in talen met weinig bronnen. Daarnaast merken we op dat het verkleinen van de omvang van de vooraf trainingsdataset via kwaliteitsfilters zoals het gebruik van CLIP, dat doorgaans wordt gebruikt om de prestaties te verbeteren, mogelijk onbedoeld de culturele diversiteit kan verminderen die zelfs in grootschalige datasets wordt vertegenwoordigd. Onze resultaten benadrukken dat, hoewel traditionele benchmarks mogelijk niet aanzienlijk profiteren van het schalen van rauwe webgegevens naar 100 miljard voorbeelden, deze gegevensschaal essentieel is voor het bouwen van echt inclusieve multimodale systemen.
Schalingswetten worden doorgaans aangepast met behulp van een reeks modellen met een beperkt bereik van bevroren hyperparameterkeuzes. In dit werk bestuderen we schalingswetten met behulp van een breed scala aan architectuur- en hyperparameterkeuzes, en benadrukken we hun impact op resulterende voorschriften. Als belangrijkste resultaat van ons onderzoek publiceren we de Gemstones: de meest uitgebreide open-source schalingswetendataset tot nu toe, bestaande uit meer dan 4000 checkpoints van transformers met maximaal 2 miljard parameters; deze modellen zijn getraind met verschillende leersnelheden, cooldown-schema's en architecturale vormen. Onze checkpoints maken complexere studies van schaling mogelijk, zoals een wet die de prestaties van taalmodellering voorspelt als een functie van modelbreedte en -diepte. Door de verschillende facetten van onze modelreeks te onderzoeken, ontdekken we dat de voorschriften van schalingswetten zeer gevoelig kunnen zijn voor het experimentele ontwerpproces en de specifieke modelcheckpoints die tijdens het aanpassen zijn gebruikt. Code: https://github.com/mcleish7/gemstone-scaling-laws
Het onderwijzen van grote taalmodellen (LLM's) om hun uitvoer te beoordelen en te verfijnen is cruciaal voor het bouwen van systemen die iteratief kunnen verbeteren, maar het wordt fundamenteel beperkt door het vermogen om nauwkeurige oordelen en bruikbare suggesties te geven. In dit werk bestuderen we LLM-critici voor codegeneratie en stellen CTRL voor, een raamwerk voor Critic Training via Reinforcement Learning, dat een criticusmodel traint om feedback te genereren die de correctieprestaties maximaliseert voor een vast generatormodel zonder menselijk toezicht. Onze resultaten tonen aan dat critici die zijn getraind met CTRL aanzienlijk de slaagpercentages verbeteren en opeenhopende fouten verminderen bij zowel basis- als krachtigere generatormodellen. Bovendien laten we zien dat deze criticusmodellen optreden als nauwkeurige generatieve beloningsmodellen en testtijdvergroting mogelijk maken door middel van iteratieve beoordeling-herziening, waarbij tot 106,1% relatieve verbeteringen worden behaald over uitdagende codegeneratie-benchmarks.
DiT-gebaseerde videogeneratie heeft opmerkelijke resultaten behaald, maar onderzoek naar het verbeteren van bestaande modellen blijft relatief onontgonnen. In dit werk introduceren we een trainingvrije benadering om de coherentie en kwaliteit van DiT-gegenereerde video's te verbeteren, genaamd Enhance-A-Video. Het kernidee is het verbeteren van de cross-frame correlaties op basis van niet-diagonale temporale aandachtsverdelingen. Dankzij het eenvoudige ontwerp kan onze benadering gemakkelijk worden toegepast op de meeste DiT-gebaseerde videogeneratiekaders zonder enige hertraining of fijnafstemming. Over verschillende DiT-gebaseerde videogeneratiemodellen toont onze benadering veelbelovende verbeteringen in zowel temporele consistentie als visuele kwaliteit. We hopen dat dit onderzoek toekomstige verkenningen in videogeneratieverbetering kan inspireren.
Foundation modellen hebben de natuurlijke taalverwerking en kunstmatige intelligentie gerevolutioneerd, aanzienlijk verbeterend hoe machines menselijke talen begrijpen en genereren. Geïnspireerd door het succes van deze foundation modellen, hebben onderzoekers foundation modellen ontwikkeld voor individuele wetenschappelijke domeinen, waaronder kleine moleculen, materialen, eiwitten, DNA en RNA. Echter, deze modellen worden typisch geïsoleerd getraind, missend de mogelijkheid om te integreren over verschillende wetenschappelijke domeinen. Inzien dat entiteiten binnen deze domeinen allemaal kunnen worden voorgesteld als sequenties, die samen de "taal van de natuur" vormen, introduceren we Natuur Taal Model (kortweg, NatureLM), een op sequenties gebaseerd wetenschappelijk foundation model ontworpen voor wetenschappelijke ontdekkingen. Voorgetraind met gegevens uit meerdere wetenschappelijke domeinen, biedt NatureLM een verenigd, veelzijdig model dat verschillende toepassingen mogelijk maakt, waaronder: (i) genereren en optimaliseren van kleine moleculen, eiwitten, RNA en materialen met behulp van tekstinstructies; (ii) cross-domein generatie/ontwerp, zoals eiwit-naar-molecuul en eiwit-naar-RNA generatie; en (iii) het behalen van state-of-the-art prestaties in taken zoals SMILES-naar-IUPAC vertaling en retrosynthese op USPTO-50k. NatureLM biedt een veelbelovende generalistische benadering voor verschillende wetenschappelijke taken, waaronder geneesmiddelontdekking (hit generatie/optimalisatie, ADMET optimalisatie, synthese), nieuw materiaalontwerp, en de ontwikkeling van therapeutische eiwitten of nucleotiden. We hebben NatureLM modellen ontwikkeld in verschillende groottes (1 miljard, 8 miljard en 46,7 miljard parameters) en hebben een duidelijke verbetering in prestaties waargenomen naarmate de modelgrootte toeneemt.
Vanwege de schaarste aan op agenten gerichte voorafgaande trainingsgegevens vertrouwen op LLM-gebaseerde autonome agenten meestal op complexe aanwijzingen of uitgebreide fijnafstemming, wat vaak niet lukt om nieuwe mogelijkheden te introduceren terwijl sterke generaliseerbaarheid behouden blijft. Wij introduceren Hephaestus-Forge, het eerste grootschalige voorafgaande trainingscorpus ontworpen om de fundamentele mogelijkheden van LLM-agenten te verbeteren in API-functieaanroepen, intrinsieke redenering en planning, en het aanpassen aan omgevingsfeedback. Hephaestus-Forge omvat 103B agent-specifieke gegevens die 76,537 API's omvatten, inclusief zowel tooldocumentatie om kennis van API-functies te introduceren als functieaanroeptrajecten om intrinsieke redenering te versterken. Om effectieve trainingsprotocollen te verkennen, onderzoeken we schaalwetten om het optimale recept in datamengverhoudingen te identificeren. Door voortdurende voorafgaande training op Hephaestus-Forge presteert Hephaestus beter dan LLM's op kleine tot middelgrote schaal en evenaart commerciële LLM's op drie agentbenchmarks, waarbij de effectiviteit van ons voorafgaande trainingscorpus wordt aangetoond in het verbeteren van fundamentele agentmogelijkheden en generalisatie van LLM's naar nieuwe taken of omgevingen.
Recente methoden voor het genereren van afbeeldingen naar video hebben succes aangetoond in het mogelijk maken van controle over één of twee visuele elementen, zoals cameratraject of objectbeweging. Deze methoden zijn echter niet in staat om controle te bieden over meerdere visuele elementen vanwege beperkingen in gegevens en netwerkefficiëntie. In dit artikel introduceren we VidCRAFT3, een nieuw raamwerk voor nauwkeurige beeld-naar-video generatie dat gelijktijdige controle mogelijk maakt over camerabeweging, objectbeweging en lichtrichting. Om de controle over elk visueel element beter te scheiden, stellen we de Ruimtelijke Drievoudige-Aandacht Transformer voor, die op een symmetrische manier lichtrichting, tekst en afbeelding integreert. Aangezien de meeste video-datasets in de echte wereld geen lichtannotaties hebben, construeren we een hoogwaardige synthetische video-dataset, de VideoLichtrichting (VLD) dataset. Deze dataset bevat lichtrichting annotaties en objecten met diverse verschijningen, waardoor VidCRAFT3 effectief sterke lichttransmissie- en reflectie-effecten kan verwerken. Daarnaast stellen we een drie-fasen trainingsstrategie voor die de noodzaak voor trainingsgegevens geannoteerd met meerdere visuele elementen (camerabeweging, objectbeweging en lichtrichting) tegelijkertijd elimineert. Uitgebreide experimenten op benchmark datasets tonen de doeltreffendheid van VidCRAFT3 aan bij het produceren van hoogwaardige videomateriaal, waarbij bestaande state-of-the-art methoden worden overtroffen op het gebied van controlegranulariteit en visuele samenhang. Alle code en gegevens zullen openbaar beschikbaar zijn. Projectpagina: https://sixiaozheng.github.io/VidCRAFT3/.
We presenteren Pippo, een generatief model dat in staat is om dichtbevolkte draaiende video's van een persoon met een resolutie van 1K te produceren vanuit een enkele informeel genomen foto. Pippo is een multi-view diffusie transformer en vereist geen aanvullende invoer - bijvoorbeeld, een passend parametrisch model of cameraparameters van de invoerafbeelding. We pre-trainen Pippo op 3 miljard menselijke afbeeldingen zonder bijschriften, en voeren multi-view training in het midden en na de training uit op in de studio vastgelegde mensen. Tijdens de training in het midden, om snel de studio dataset op te nemen, denoisen we verschillende (tot 48) weergaven op lage resolutie en coderen we doelcamera's grof met behulp van een ondiepe MLP. Tijdens de post-training denoisen we minder weergaven op hoge resolutie en gebruiken we pixel-uitgelijnde controles (bijv. Ruimtelijke anker en Plucker-stralen) om 3D consistente generaties mogelijk te maken. Bij inferentie stellen we een aandachtsbiasingtechniek voor die Pippo in staat stelt om tegelijkertijd meer dan 5 keer zoveel weergaven te genereren als tijdens de training gezien. Tot slot introduceren we ook een verbeterde metriek om de 3D consistentie van multi-view generaties te evalueren, en tonen aan dat Pippo beter presteert dan bestaande werken op het gebied van multi-view mensengeneratie vanuit een enkele afbeelding.
Grote taalmodellen (LLM's) lijken vaak uit te blinken op openbare benchmarks, maar deze hoge scores kunnen een te grote afhankelijkheid van dataset-specifieke oppervlakteaanwijzingen maskeren in plaats van ware taalbegrip. We introduceren de Chameleon Benchmark Overfit Detector (C-BOD), een meta-evaluatiekader dat benchmark prompts systematisch verstoort via een parametrische transformatie en overpassing van LLM's detecteert. Door invoer te herformuleren terwijl de semantische inhoud en labels behouden blijven, onthult C-BOD of de prestatie van een model wordt aangedreven door gememoriseerde patronen. Geëvalueerd op de MMLU-benchmark met behulp van 26 toonaangevende LLM's, onthult onze methode een gemiddelde prestatievermindering van 2,15% onder bescheiden verstoringen, waarbij 20 van de 26 modellen statistisch significante verschillen vertonen. Opmerkelijk is dat modellen met een hogere basale nauwkeurigheid grotere prestatieverschillen vertonen onder verstoring, en grotere LLM's lijken gevoeliger te zijn voor herformuleringen, wat aangeeft dat beide gevallen mogelijk te veel vertrouwen op vaste promptpatronen. In tegenstelling hiermee tonen de Llama-familie en modellen met lagere basale nauwkeurigheid onbeduidende degradatie, wat wijst op verminderde afhankelijkheid van oppervlakkige aanwijzingen. Bovendien maakt het dataset- en modelagnostische ontwerp van C-BOD een eenvoudige integratie in trainingspipelines mogelijk om een robuuster taalbegrip te bevorderen. Onze bevindingen dagen de gemeenschap uit om verder te kijken dan de ranglijstscores en veerkracht en generalisatie te prioriteren bij de evaluatie van LLM's.
De overgrote meerderheid van de ophaalmodellen is afhankelijk van inwendige producten van vectoren om een relevantiescore tussen een zoekopdracht en een document te produceren. Dit beperkt natuurlijk de expressiviteit van de relevantiescore die kan worden toegepast. Wij stellen een nieuw paradigma voor: in plaats van een vector te produceren om de zoekopdracht voor te stellen, produceren we een kleine neurale netwerk die fungeert als een aangeleerde relevantiefunctie. Dit kleine neurale netwerk neemt een representatie van het document in, in dit artikel gebruiken we een enkele vector, en produceert een scalaire relevantiescore. Om het kleine neurale netwerk te produceren, gebruiken we een hypernetwerk, een netwerk dat de gewichten van andere netwerken produceert, als onze zoekopdrachtencoder of zoals we het noemen een Hypencoder. Experimenten op zoekopdrachttaken binnen het domein tonen aan dat Hypencoder aanzienlijk beter presteert dan sterke dichte ophaalmodellen en hogere metingen heeft dan herrangschikkingsmodellen en modellen die een orde van grootte groter zijn. Hypencoder wordt ook aangetoond goed te generaliseren naar zoekopdrachttaken buiten het domein. Om de omvang van de mogelijkheden van Hypencoder te beoordelen, evalueren we op een reeks moeilijke ophaaltaken, waaronder het 'tip-of-the-tongue' ophalen en instructievolgende ophaaltaken, en constateren dat de prestatiekloof aanzienlijk groter wordt in vergelijking met standaard ophaaltaken. Bovendien, om de praktische toepasbaarheid van onze methode te demonstreren, implementeren we een benaderingszoekalgoritme en tonen aan dat ons model in staat is om 8,8 miljoen documenten in minder dan 60 ms te doorzoeken.
Optical Character Recognition (OCR) technologie wordt veelvuldig gebruikt om tekst uit afbeeldingen van documenten te extraheren, waardoor efficiënte digitalisering en gegevensopvraging mogelijk worden gemaakt. Echter, enkel het extraheren van tekst is onvoldoende bij het omgaan met complexe documenten. Een volledig begrip van dergelijke documenten vereist een begrip van hun structuur -- inclusief opmaak, formules, tabellen, en de leesvolgorde van meerdere blokken en kolommen over meerdere pagina's -- evenals semantische informatie voor het detecteren van elementen zoals voetnoten en afbeeldingsbijschriften. Dit uitgebreide begrip is cruciaal voor taken nadien zoals opvraging, het beantwoorden van documentvragen en gegevenscuratie voor het trainen van Grote Taalmodellen (LLMs) en Visie Taalmodellen (VLMs). Om hiermee om te gaan, introduceren we 'Éclair, een algemeen tekstextractietool specifiek ontworpen om een breed scala aan documenttypes te verwerken. Gegeven een afbeelding, is 'Éclair in staat opgemaakte tekst in leesvolgorde te extraheren, samen met afbakeningskaders en hun overeenkomstige semantische klassen. Om deze nieuwe mogelijkheden grondig te evalueren, introduceren we ons diverse menselijk-geannoteerde benchmark voor OCR op documentniveau en semantische classificatie. 'Éclair behaalt state-of-the-art nauwkeurigheid op deze benchmark, waarbij het andere methoden overtreft op belangrijke metrieken. Daarnaast evalueren we 'Éclair op gevestigde benchmarks, waarbij we de veelzijdigheid en kracht ervan aantonen over verschillende evaluatienormen.
Multi-modale Grote Taalmodellen (MLLM's) hebben moeite met lange video's vanwege de noodzaak van overmatige visuele tokens. Deze tokens overschrijden aanzienlijk de contextlengte van MLLM's, resulterend in het vullen met overbodige, taak-onrelevante shots. Hoe shots te selecteren is een onopgelost kritisch probleem: spaarzaam bemonsteren riskeert het missen van belangrijke details, terwijl uitputtend bemonsteren het model overweldigt met irrelevante inhoud, wat leidt tot misverstanden in de video. Om dit probleem op te lossen, stellen we Chain-of-Shot prompting (CoS) voor. Het belangrijkste idee is om shotselectie te kaderen als optimalisatie van visuele prompts op testtijd, waarbij shots adaptief aan videobegrip worden gekozen op basis van semantische taak door shots-taakuitlijning te optimaliseren. CoS bestaat uit twee belangrijke onderdelen: (1) een binair videosamenvattingsmechanisme dat pseudo-temporele verankering uitvoert, waarbij een binaire codering wordt ontdekt om taakrelevante shots te identificeren, en (2) een videoco-redeneringsmodule die de binaire codering inzet om (leren uitlijnen) taakrelevante positieve shots met irrelevante negatieve shots te koppelen. Het integreert de geoptimaliseerde shotselecties in de originele video, waardoor een focus op relevante context mogelijk is om begrip van lange video's te optimaliseren. Experimenten over drie baselines en vijf datasets tonen de effectiviteit en aanpasbaarheid van CoS aan. De code is beschikbaar op https://lwpyh.github.io/CoS.
Grote Taalmodellen (LLM's) worden ontdekt als zijnde problematisch bij het nauwkeurig ophalen van essentiële informatie. Om dit aan te pakken, stellen wij Masker-Versterkte Autoregressieve Voorspelling (MEAP) voor, een eenvoudig maar effectief trainingsparadigma dat Masked Language Modeling (MLM) naadloos integreert in Next-Token Prediction (NTP) om de in-context ophaalmogelijkheden van de laatste te verbeteren. Specifiek maskeert MEAP eerst willekeurig een klein deel van de invoertokens en voert vervolgens direct de standaard autoregressieve voorspelling van het volgende token uit met behulp van een decoder-only Transformer. MEAP elimineert de noodzaak van bidirectionele aandacht of encoder-decoder architecturen voor MLM, zonder extra rekenkundige overhead tijdens pre-training of inferentie te veroorzaken. Intensieve experimenten tonen aan dat MEAP aanzienlijk beter presteert dan NTP bij het ophalen van essentiële informatie en redeneren over lange contexten, terwijl het vergelijkbaar of beter presteert bij taken voor gezond verstand redeneren. De voordelen van MEAP strekken zich ook uit tot begeleid finetunen, waar het opmerkelijke voordelen laat zien in situaties waarin informatie verloren gaat, waarbij het NTP met 11,77 procentpunten overtreft. Onze analyse geeft aan dat de effectiviteit van MEAP voortkomt uit zijn vermogen om meer onderscheidende aandachtscores te bevorderen door zich te concentreren op een beperkte set niet-gemaskeerde tokens. Dit mechanisme verbetert de focus van het model op taakrelevante signalen en vermindert de invloed van perifere context. Deze bevindingen positioneren MEAP als een veelbelovend trainingsparadigma voor grote taalmodellen.
Computer Aided Design (CAD) is onmisbaar in verschillende industrieën. Tekstgebaseerde CAD-bewerking, die de aanpassing van CAD-modellen automatiseert op basis van tekstuele instructies, heeft veel potentieel maar is nog onderbelicht. Bestaande methoden richten zich voornamelijk op het genereren van ontwerpvariaties of tekstgebaseerde CAD-generatie, waarbij ondersteuning voor tekstgebaseerde controle ontbreekt of bestaande CAD-modellen als beperkingen worden genegeerd. Wij introduceren CAD-Editor, het eerste kader voor tekstgebaseerde CAD-bewerking. Om het uitdagende triplet data probleem met nauwkeurige overeenkomsten voor training aan te pakken, stellen wij een geautomatiseerde gegevenssynthesepijplijn voor. Deze pijplijn maakt gebruik van ontwerpvariatie modellen om paren van originele en bewerkte CAD-modellen te genereren en maakt gebruik van Grote Visie-Taal Modellen (LVLMs) om hun verschillen samen te vatten in bewerkingsinstructies. Om de samengestelde aard van tekstgebaseerde CAD-bewerking aan te pakken, stellen wij een lokaliseer-en-invul kader voor dat de taak opsplitst in twee gerichte subtaken: het lokaliseren van regio's die aanpassing vereisen en het invullen van deze regio's met passende bewerkingen. Grote Taalmodellen (LLMs) dienen als de ruggengraat voor beide subtaken, waarbij zij profiteren van hun capaciteiten op het gebied van natuurlijke taalbegrip en CAD-kennis. Experimenten tonen aan dat CAD-Editor zowel kwantitatief als kwalitatief superieure prestaties behaalt.
We introduceren Goedel-Prover, een open-source groot taalmodel (LLM) dat de state-of-the-art (SOTA) prestaties behaalt in geautomatiseerde formele bewijsvoering voor wiskundige problemen. De belangrijkste uitdaging in dit vakgebied is het gebrek aan geformaliseerde wiskundige verklaringen en bewijzen, die we op de volgende manieren aanpakken. We trainen verklaringsformaliseerders om de natuurlijke taal wiskundige problemen van Numina naar formele taal (Lean 4) te vertalen, waarbij we een dataset van 1,64 miljoen formele verklaringen creëren. LLM's worden gebruikt om te controleren of de formele verklaringen nauwkeurig de inhoud van de oorspronkelijke natuurlijke taal problemen behouden. Vervolgens bouwen we iteratief een grote dataset van formele bewijzen door een reeks bewijzers te trainen. Elke bewijzer slaagt erin om veel verklaringen te bewijzen die de vorige niet konden, en deze nieuwe bewijzen worden toegevoegd aan de trainingsset voor de volgende bewijzer. De uiteindelijke bewijzer presteert beter dan alle bestaande open-source modellen in het genereren van volledige bewijzen. Op de miniF2F benchmark behaalt het een succespercentage van 57,6% (Pass@32), wat het vorige beste open-source model met 7,6% overtreft. Op PutnamBench lost Goedel-Prover succesvol 7 problemen op (Pass@512), waarbij het eerste staat op de ranglijst. Bovendien genereert het 29,7K formele bewijzen voor Lean Workbook problemen, bijna het dubbele van de 15,7K geproduceerd door eerdere werken.
Om visiemodellen echt te begrijpen, moeten we niet alleen hun geleerde kenmerken interpreteren, maar ook deze interpretaties valideren via gecontroleerde experimenten. Huidige benaderingen bieden ofwel interpreteerbare kenmerken zonder de mogelijkheid om hun causale invloed te testen, of stellen modelbewerking in staat zonder interpreteerbare controles. We presenteren een verenigd kader met behulp van schaarse auto-encoders (SAE's) die deze kloof overbrugt, waardoor we menselijk interpreteerbare visuele kenmerken kunnen ontdekken en deze nauwkeurig kunnen manipuleren om hypothesen over het modelgedrag te testen. Door onze methode toe te passen op toonaangevende visiemodellen, onthullen we belangrijke verschillen in de semantische abstracties die worden geleerd door modellen met verschillende voorafgaande trainingsdoelstellingen. Vervolgens demonstreren we het praktische gebruik van ons kader door gecontroleerde interventies over meerdere visietaken. We tonen aan dat SAE's betrouwbaar interpreteerbare visuele kenmerken kunnen identificeren en manipuleren zonder modelhertraining, waardoor een krachtig instrument wordt geboden voor het begrijpen en controleren van het gedrag van visiemodellen. We bieden code, demo's en modellen op onze projectwebsite: https://osu-nlp-group.github.io/SAE-V.
Het cachen van prompts in grote taalmodellen (LLM's) resulteert in datagestuurde timingvariaties: gecachte prompts worden sneller verwerkt dan niet-gecachte prompts. Deze timingverschillen brengen het risico van side-channel timingaanvallen met zich mee. Bijvoorbeeld, als de cache wordt gedeeld tussen gebruikers, zou een aanvaller gecachte prompts kunnen identificeren aan de hand van snelle API-responstijden om informatie te achterhalen over prompts van andere gebruikers. Omdat prompt caching tot privacy-uitzonderingen kan leiden, is transparantie over de cachingbeleidsregels van API-providers belangrijk. Met dit doel ontwikkelen we en voeren we statistische audits uit om prompt caching te detecteren bij LLM API-providers in de echte wereld. We detecteren wereldwijde cache-deling tussen gebruikers bij zeven API-providers, waaronder OpenAI, wat kan leiden tot potentiële privacy-uitzonderingen met betrekking tot prompts van gebruikers. Timingvariaties als gevolg van prompt caching kunnen ook leiden tot het uitlekken van informatie over modelarchitectuur. We vinden met name bewijs dat het embeddingmodel van OpenAI een decoder-only Transformer is, wat eerder niet publiekelijk bekend was.
Mensen excelleren in het hergebruiken van eerdere kennis om nieuwe uitdagingen aan te gaan en vaardigheden te ontwikkelen tijdens het oplossen van problemen. Dit paradigma wordt steeds populairder in de ontwikkeling van autonome agenten, aangezien het systemen ontwikkelt die zichzelf kunnen evolueren als reactie op nieuwe uitdagingen zoals mensen. Echter, eerdere methoden kampen met beperkte trainings-efficiëntie bij het uitbreiden van nieuwe vaardigheden en slagen er niet in om eerdere kennis volledig te benutten om het leren van nieuwe taken te vergemakkelijken. In dit artikel stellen we Parametrische Vaardigheidsuitbreiding en Samenstelling (PSEC) voor, een nieuw raamwerk dat is ontworpen om de capaciteiten van de agenten iteratief te laten evolueren en efficiënt nieuwe uitdagingen aan te gaan door een beheersbare vaardighedenbibliotheek te behouden. Deze bibliotheek kan geleidelijk vaardigheidsprimitieven integreren als plug-and-play modules voor Lage-Rang Aanpassing (LoRA) in parameter-efficiënte finetuning, waardoor efficiënte en flexibele vaardigheidsuitbreiding mogelijk wordt. Deze structuur maakt ook directe vaardigheidscomposities in parameter-ruimte mogelijk door LoRA-modules samen te voegen die verschillende vaardigheden coderen, waarbij gedeelde informatie over vaardigheden wordt benut om effectief nieuwe vaardigheden te programmeren. Op basis hiervan stellen we een contextbewuste module voor om verschillende vaardigheden dynamisch te activeren om gezamenlijk nieuwe taken aan te pakken. Door diverse toepassingen te versterken, waaronder multi-objectieve samenstelling, dynamische verschuiving en voortdurende beleidswijziging, tonen de resultaten op D4RL, DSRL-benchmarks en de DeepMind Control Suite aan dat PSEC een superieure capaciteit vertoont om eerdere kennis efficiënt te benutten om nieuwe uitdagingen aan te gaan, evenals het uitbreiden van zijn vaardighedenbibliotheken om de capaciteiten te laten evolueren. Projectwebsite: https://ltlhuuu.github.io/PSEC/.
Grote taalmodellen hebben de natuurlijke taalverwerking gerevolutioneerd door zelftoezicht vooraf te trainen op enorme datasets. Geïnspireerd door dit succes hebben onderzoekers onderzocht hoe ze deze methoden kunnen aanpassen aan spraak door continue audio te discretiseren in tokens met behulp van neurale audiocodecs. Bestaande benaderingen ondervinden echter beperkingen, waaronder hoge bitsnelheden, het verlies van ofwel semantische of akoestische informatie, en de afhankelijkheid van multi-codebook ontwerpen bij pogingen om beide vast te leggen, wat de architecturale complexiteit voor downstream taken verhoogt. Om deze uitdagingen aan te pakken, introduceren we FocalCodec, een efficiënte codec met lage bitsnelheid gebaseerd op focale modulatie die een enkel binair codeboek gebruikt om spraak te comprimeren tussen 0,16 en 0,65 kbps. FocalCodec levert een concurrerende prestatie bij spraakresynthese en stemconversie bij lagere bitsnelheden dan de huidige state-of-the-art, terwijl het effectief omgaat met meertalige spraak en lawaaierige omgevingen. Evaluatie op downstream taken toont aan dat FocalCodec voldoende semantische en akoestische informatie succesvol behoudt, terwijl het ook goed geschikt is voor generatieve modellering. Demo's, code en checkpoints zijn beschikbaar op https://lucadellalib.github.io/focalcodec-web/.
Grote Taal- en Visie-Taalmodellen (LLM's/VLM's) worden steeds vaker gebruikt in veiligheidskritieke toepassingen, maar hun ondoorzichtige besluitvorming bemoeilijkt risicobeoordeling en betrouwbaarheid. Onzekerheidskwantificatie (UQ) helpt bij het beoordelen van voorspellingsvertrouwen en maakt onthouding mogelijk wanneer de onzekerheid hoog is. Conformele voorspelling (CP), een toonaangevende UQ-methode, biedt statistische garanties maar vertrouwt op statische drempels, die niet kunnen aanpassen aan taakcomplexiteit en evoluerende gegevensverdelingen, wat leidt tot suboptimale afwegingen in nauwkeurigheid, dekking en informativiteit. Om dit aan te pakken, stellen we leerbaar conform onthouding voor, waarbij versterkend leren (RL) wordt geïntegreerd met CP om onthoudingsdrempels dynamisch te optimaliseren. Door CP-drempels te behandelen als aanpasbare acties, balanceert onze aanpak meerdere doelstellingen, waarbij de voorspellingssetgrootte wordt geminimaliseerd terwijl betrouwbare dekking wordt gehandhaafd. Uitgebreide evaluaties over diverse LLM/VLM-benchmarks tonen aan dat onze methode beter presteert dan Minst Ambigue Classificeerders (LAC) en Aanpasbare Voorspellingssets (APS), waarbij de nauwkeurigheid tot 3,2% verbetert, de AUROC voor hallucinatiedetectie met 22,19% stijgt, de onzekerheidsgestuurde selectieve generatie (AUARC) met 21,17% verbetert, en de kalibratiefout met 70%-85% vermindert. Deze verbeteringen gelden voor meerdere modellen en datasets, terwijl consequent wordt voldaan aan het doel van 90% dekking, waarmee onze aanpak wordt gevestigd als een effectievere en flexibelere oplossing voor betrouwbare besluitvorming in veiligheidskritieke toepassingen. De code is beschikbaar op: {https://github.com/sinatayebati/vlm-uncertainty}.