Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Qwen2.5-VL, het nieuwste vlaggenschipmodel van de Qwen vision-language serie, dat aanzienlijke vooruitgang boekt in zowel fundamentele mogelijkheden als innovatieve functionaliteiten. Qwen2.5-VL maakt een grote sprong voorwaarts in het begrijpen en interacteren met de wereld door verbeterde visuele herkenning, nauwkeurige objectlokalisatie, robuuste documentparsing en langdurige videocomprehensie. Een opvallende eigenschap van Qwen2.5-VL is zijn vermogen om objecten nauwkeurig te lokaliseren met behulp van bounding boxes of punten. Het biedt robuuste gestructureerde data-extractie van facturen, formulieren en tabellen, evenals gedetailleerde analyse van grafieken, diagrammen en lay-outs. Om complexe inputs te verwerken, introduceert Qwen2.5-VL dynamische resolutieverwerking en absolute tijdcodering, waardoor het beelden van verschillende formaten en video's van langere duur (tot uren) kan verwerken met secondenprecieze gebeurtenislokalisatie. Hierdoor kan het model ruimtelijke schalen en temporele dynamiek intrinsiek waarnemen zonder te vertrouwen op traditionele normalisatietechnieken. Door een native dynamische-resolutie Vision Transformer (ViT) vanaf nul te trainen en Window Attention te integreren, verminderen we de rekenkosten terwijl de native resolutie behouden blijft. Als resultaat blinkt Qwen2.5-VL niet alleen uit in statische beeld- en documentbegrip, maar ook als een interactieve visuele agent die in staat is tot redeneren, gereedschapsgebruik en taakuitvoering in real-world scenario's zoals het bedienen van computers en mobiele apparaten. Qwen2.5-VL is beschikbaar in drie formaten, die diverse use cases adresseren van edge AI tot high-performance computing. Het vlaggenschipmodel Qwen2.5-VL-72B kan wedijveren met state-of-the-art modellen zoals GPT-4o en Claude 3.5 Sonnet, met name uitblinkend in document- en diagrambegrip. Daarnaast behoudt Qwen2.5-VL een robuuste linguïstische prestaties, waarbij de kern taalvaardigheden van de Qwen2.5 LLM behouden blijven.
Generatieve Foundation Models (GenFMs) zijn opgekomen als transformerende tools. Hun brede adoptie roept echter kritieke zorgen op over betrouwbaarheid op verschillende dimensies. Dit artikel presenteert een uitgebreid raamwerk om deze uitdagingen aan te pakken via drie belangrijke bijdragen. Ten eerste voeren we een systematische review uit van wereldwijde AI-governancewetten en -beleid van overheden en regelgevende instanties, evenals industriële praktijken en standaarden. Op basis van deze analyse stellen we een reeks leidende principes voor GenFMs voor, ontwikkeld door uitgebreide multidisciplinaire samenwerking die technische, ethische, juridische en maatschappelijke perspectieven integreert. Ten tweede introduceren we TrustGen, het eerste dynamische benchmarkplatform ontworpen om betrouwbaarheid te evalueren over meerdere dimensies en modeltypen, waaronder tekst-naar-beeld, grote taal- en visie-taalmodellen. TrustGen maakt gebruik van modulaire componenten—metadata-curatie, testcasegeneratie en contextuele variatie—om adaptieve en iteratieve beoordelingen mogelijk te maken, waardoor de beperkingen van statische evaluatiemethoden worden overwonnen. Met TrustGen onthullen we significante vooruitgang in betrouwbaarheid, terwijl we aanhoudende uitdagingen identificeren. Tot slot bieden we een diepgaande discussie van de uitdagingen en toekomstige richtingen voor betrouwbare GenFMs, die de complexe, evoluerende aard van betrouwbaarheid onthult, waarbij de genuanceerde afwegingen tussen nut en betrouwbaarheid worden belicht, en rekening wordt gehouden met verschillende downstream-toepassingen, waarbij aanhoudende uitdagingen worden geïdentificeerd en een strategische routekaart voor toekomstig onderzoek wordt geboden. Dit werk stelt een holistisch raamwerk vast voor het bevorderen van betrouwbaarheid in GenAI, en baant de weg voor een veiligere en verantwoordelijkere integratie van GenFMs in kritieke toepassingen. Om vooruitgang in de gemeenschap te faciliteren, geven we de toolkit voor dynamische evaluatie vrij.
Text-to-song-generatie, de taak om vocalen en begeleiding te creëren vanuit tekstuele invoer, brengt aanzienlijke uitdagingen met zich mee vanwege de complexiteit van het domein en de schaarste aan data. Bestaande benaderingen maken vaak gebruik van meerfasige generatieprocedures, wat resulteert in omslachtige trainings- en inferentiepijplijnen. In dit artikel stellen we SongGen voor, een volledig open-source, enkelfasig auto-regressief transformer-model ontworpen voor controleerbare songgeneratie. Het voorgestelde model maakt fijnmazige controle mogelijk over diverse muzikale attributen, waaronder songteksten en tekstuele beschrijvingen van instrumentatie, genre, stemming en timbre, terwijl het ook een optionele drie seconden durende referentieclip biedt voor stemklonen. Binnen een geünificeerd auto-regressief raamwerk ondersteunt SongGen twee uitvoermodi: de gemengde modus, die direct een mix van vocalen en begeleiding genereert, en de dual-track modus, die ze afzonderlijk synthetiseert voor meer flexibiliteit in downstream-toepassingen. We onderzoeken diverse tokenpatroonstrategieën voor elke modus, wat leidt tot opmerkelijke verbeteringen en waardevolle inzichten. Daarnaast ontwerpen we een geautomatiseerde data-preprocessingpijplijn met effectieve kwaliteitscontrole. Om gemeenschapsbetrokkenheid en toekomstig onderzoek te bevorderen, zullen we onze modelgewichten, trainingscode, geannoteerde data en preprocessingpijplijn vrijgeven. De gegenereerde voorbeelden worden getoond op onze projectpagina op https://liuzh-19.github.io/SongGen/, en de code zal beschikbaar zijn op https://github.com/LiuZH-19/SongGen.
Bestaande end-to-end algoritmen voor autonoom rijden (AD) volgen doorgaans het Imitation Learning (IL) paradigma, dat uitdagingen kent zoals causale verwarring en de open-loop kloof. In dit werk stellen we een 3DGS-gebaseerd closed-loop Reinforcement Learning (RL) trainingsparadigma op. Door gebruik te maken van 3DGS-technieken construeren we een fotorealistische digitale replica van de echte fysieke wereld, waardoor het AD-beleid uitgebreid de toestandsruimte kan verkennen en kan leren omgaan met out-of-distribution scenario's door middel van grootschalige trial en error. Om de veiligheid te vergroten, ontwerpen we gespecialiseerde beloningen die het beleid begeleiden om effectief te reageren op veiligheidskritieke gebeurtenissen en om causale relaties in de echte wereld te begrijpen. Voor een betere afstemming op menselijk rijgedrag wordt IL geïntegreerd in de RL-training als een regularisatieterm. We introduceren een closed-loop evaluatiebenchmark bestaande uit diverse, voorheen onbekende 3DGS-omgevingen. In vergelijking met IL-gebaseerde methoden behaalt RAD betere prestaties op de meeste closed-loop metrieken, met name een 3x lagere botsingsfrequentie. Uitgebreide closed-loop resultaten zijn te vinden op https://hgao-cv.github.io/RAD.
Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken, en het destilleren van hun redeneervermogen in kleinere modellen heeft veelbelovende resultaten opgeleverd. Wij hebben echter een interessant fenomeen ontdekt, dat we de 'Small Model Learnability Gap' noemen: kleine modellen (≤3B parameters) profiteren niet consistent van lange ketens van redeneringen (chain-of-thought, CoT) of destillatie van grotere modellen. In plaats daarvan presteren ze beter wanneer ze worden afgestemd op kortere, eenvoudigere redeneerketens die beter aansluiten bij hun intrinsieke leervermogen. Om dit aan te pakken, stellen we Mix Distillation voor, een eenvoudige maar effectieve strategie die de complexiteit van redeneringen in balans brengt door lange en korte CoT-voorbeelden te combineren, of redeneringen van zowel grotere als kleinere modellen. Onze experimenten tonen aan dat Mix Distillation de redeneerprestaties van kleine modellen aanzienlijk verbetert in vergelijking met training op slechts één type data. Deze bevindingen benadrukken de beperkingen van directe destillatie van sterke modellen en onderstrepen het belang van het aanpassen van de complexiteit van redeneringen voor een effectieve overdracht van redeneervermogen.
Lineaire sequentiemodelleringsmethoden, zoals lineaire aandacht, toestandsruimtemodellering en lineaire RNN's, bieden aanzienlijke efficiëntieverbeteringen door de complexiteit van training en inferentie te verminderen. Deze methoden comprimeren echter doorgaans de volledige invoerreeks in een enkele vaste geheugenstatus, wat leidt tot suboptimale prestaties bij recall-intensieve downstreamtaken. Geïnspireerd door neurowetenschappen, met name het vermogen van de hersenen om robuust langetermijngeheugen te behouden terwijl "geheugeninterferentie" wordt geminimaliseerd, introduceren we een nieuwe architectuur genaamd Mixture-of-Memories (MoM). MoM maakt gebruik van meerdere onafhankelijke geheugenstatussen, waarbij een routeringsnetwerk invoertokens naar specifieke geheugenstatussen leidt. Deze aanpak verbetert de algehele geheugencapaciteit aanzienlijk en minimaliseert tegelijkertijd geheugeninterferentie. Als gevolg presteert MoM uitstekend bij recall-intensieve taken en overtreft het bestaande lineaire sequentiemodelleringsmethoden. Ondanks het gebruik van meerdere geheugenstatussen blijft de berekening van elke geheugenstatus lineair in complexiteit, waardoor MoM het voordeel van lineaire complexiteit tijdens de training behoudt, terwijl het tijdens de inferentie constant in complexiteit blijft. Onze experimentele resultaten tonen aan dat MoM huidige lineaire sequentiemodellen aanzienlijk overtreft bij downstreamtaaltaken, met name recall-intensieve taken, en zelfs prestaties bereikt die vergelijkbaar zijn met Transformer-modellen. De code is vrijgegeven op https://github.com/OpenSparseLLMs/MoM en maakt ook deel uit van https://github.com/OpenSparseLLMs/Linear-MoE.
Tekst-embeddingen worden doorgaans geëvalueerd op een beperkte set taken, die worden beperkt door taal, domein en taakdiversiteit. Om deze beperkingen aan te pakken en een uitgebreidere evaluatie te bieden, introduceren we de Massive Multilingual Text Embedding Benchmark (MMTEB) - een grootschalige, door de gemeenschap gedreven uitbreiding van MTEB, die meer dan 500 kwaliteitsgecontroleerde evaluatietaken omvat in meer dan 250 talen. MMTEB omvat een diverse set uitdagende, nieuwe taken zoals het volgen van instructies, het ophalen van lange documenten en het ophalen van code, en vertegenwoordigt de grootste meertalige verzameling evaluatietaken voor embeddingmodellen tot op heden. Met behulp van deze verzameling ontwikkelen we verschillende sterk meertalige benchmarks, die we gebruiken om een representatieve set modellen te evalueren. We constateren dat grote taalmmodellen (LLM's) met miljarden parameters state-of-the-art prestaties kunnen behalen op bepaalde taalsubsets en taakcategorieën, maar dat het best presterende publiek beschikbare model multilingual-e5-large-instruct is met slechts 560 miljoen parameters. Om de toegankelijkheid te vergroten en de rekenkosten te verlagen, introduceren we een nieuwe downsampling-methode gebaseerd op inter-taakcorrelatie, die zorgt voor een diverse selectie terwijl de relatieve modelrangschikking behouden blijft. Bovendien optimaliseren we taken zoals het ophalen van informatie door harde negatieven te bemonsteren, waardoor kleinere maar effectieve splits ontstaan. Deze optimalisaties stellen ons in staat benchmarks te introduceren die de rekenkosten drastisch verlagen. Zo behoudt onze nieuw geïntroduceerde zero-shot Engelse benchmark een vergelijkbare rangschikking als de volledige versie, maar tegen een fractie van de rekenkosten.
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond door middel van voorafgaande training en afstemming. Superieure LLMs met korte context kunnen echter onderpresteren in scenario's met lange context vanwege onvoldoende afstemming op lange context. Dit afstemmingsproces blijft uitdagend vanwege de onpraktische aard van menselijke annotatie voor uitgebreide contexten en de moeilijkheid om prestaties op korte en lange context in balans te brengen. Om deze uitdagingen aan te pakken, introduceren we LongPO, dat LLMs met korte context in staat stelt om zichzelf te ontwikkelen en uit te blinken in taken met lange context door intern capaciteiten van korte context over te dragen. LongPO benut LLMs om te leren van zelf gegenereerde voorkeursgegevens van kort naar lang, bestaande uit gepaarde reacties gegenereerd voor identieke instructies met lange context inputs en hun gecomprimeerde tegenhangers met korte context. Deze voorkeur onthult capaciteiten en potenties van LLMs die zijn ontwikkeld tijdens afstemming op korte context, maar die mogelijk verminderd zijn in onder-afgestemde scenario's met lange context. Daarnaast integreert LongPO een KL-beperking van kort naar lang om prestatieverlies op korte context te beperken tijdens afstemming op lange context. Wanneer toegepast op Mistral-7B-Instruct-v0.2 van 128K tot 512K contextlengtes, behoudt LongPO volledig de prestaties op korte context en overtreft het aanzienlijk naïeve SFT en DPO in zowel lange als korte context taken. Specifiek kunnen met \ourMethod getrainde modellen resultaten behalen op benchmarks voor lange context die vergelijkbaar zijn met, of zelfs beter dan, die van superieure LLMs (bijv. GPT-4-128K) die uitgebreide annotatie van lange context en grotere parameterschalen omvatten.
Webcrawling is een belangrijke bron van vooraf getrainde data voor grote taalmodellen (LLMs), maar het merendeel van de gecrawlde webpagina's wordt tijdens het vooraf trainen weggegooid vanwege lage data-kwaliteit. Dit artikel presenteert Crawl4LLM, een efficiënte webcrawling-methode die het webgrafiek verkent op basis van de voorkeuren van LLM-vooraf training. Specifiek maakt het gebruik van de invloed van een webpagina in LLM-vooraf training als de prioriteitsscore van de scheduler van de webcrawler, wat de standaard prioriteit op basis van grafiekconnectiviteit vervangt. Onze experimenten op een webgrafiek met 900 miljoen webpagina's uit de index van een commerciële zoekmachine tonen de efficiëntie van Crawl4LLM aan in het verkrijgen van hoogwaardige vooraf getrainde data. Met slechts 21% van de URL's gecrawld, bereiken LLMs die zijn vooraf getraind op Crawl4LLM-data dezelfde downstream-prestaties als eerdere crawls, wat de verspilling bij het crawlen aanzienlijk vermindert en de belasting op websites verlicht. Onze code is openbaar beschikbaar op https://github.com/cxcscmu/Crawl4LLM.
Grootschalige taalmodel (LLM) applicaties ontwikkelen zich verder dan eenvoudige chatbots naar dynamische, algemene agentische programma's, die LLM-aanroepen en uitvoertokens schalen om AI-agenten te helpen redeneren, verkennen en complexe taken op te lossen. Echter negeren bestaande LLM-serversystemen de afhankelijkheden tussen programma's en aanroepen, waardoor significante optimalisatiemogelijkheden worden gemist. Onze analyse toont aan dat programma's die worden ingediend bij LLM-serversystemen lange cumulatieve wachttijden ervaren, voornamelijk door head-of-line blocking op zowel het niveau van individuele LLM-aanvragen als het programma. Om dit aan te pakken introduceren we Autellix, een LLM-serversysteem dat programma's als eersteklas burgers behandelt om hun end-to-end latenties te minimaliseren. Autellix onderschept LLM-aanroepen die door programma's worden ingediend en verrijkt planners met context op programmaniveau. We stellen twee planningsalgoritmen voor - voor single-threaded en gedistribueerde programma's - die LLM-aanroepen onderbreken en prioriteren op basis van eerder voltooide aanroepen van hun programma's. Onze evaluatie toont aan dat Autellix, over diverse LLM's en agentische workloads, de doorvoer van programma's met 4-15x verbetert bij dezelfde latentie vergeleken met state-of-the-art systemen, zoals vLLM.
Supervised Fine-Tuning (SFT) is een bewezen en effectieve methode om langere ketens van redeneringen (Chain-of-Thought, CoT) te verbeteren in relatief kleine taalmodelen (LLMs) door ze te fine-tunen met lange CoT-antwoorden van grotere LLMs. Om de redeneervaardigheden voortdurend te verbeteren, kunnen we ofwel nieuwe hoogwaardige lange CoT SFT-gegevens verzamelen, of herhaaldelijk trainen op bestaande SFT-datasets. Het verkrijgen van nieuwe lange CoT SFT-gegevens is echter kostbaar en beperkt, terwijl herhaalde training vaak leidt tot een prestatieplateau of -afname. Om de prestaties met de SFT-gegevens verder te verbeteren, stellen we Thinking Preference Optimization (ThinkPO) voor, een eenvoudige maar effectieve post-SFT-methode die lange CoT-redeneringen verbetert zonder nieuwe lange CoT-antwoorden te vereisen. In plaats daarvan maakt ThinkPO gebruik van gemakkelijk beschikbare of eenvoudig te verkrijgen korte CoT-redeneringen als afgewezen antwoorden en lange CoT-antwoorden als gekozen antwoorden voor dezelfde vraag. Vervolgens past het directe voorkeursoptimalisatie toe om het model aan te moedigen langere redeneeruitkomsten te prefereren. Experimenten tonen aan dat ThinkPO de redeneerprestaties van SFT-getrainde modellen verder verbetert, bijvoorbeeld door de nauwkeurigheid van wiskundig redeneren van SFT-getrainde modellen met 8,6% te verhogen en de uitvoerlengte met 25,9%. Opmerkelijk is dat ThinkPO in staat is om de prestaties van het openbaar gedistilleerde SFT-model voortdurend te verbeteren, bijvoorbeeld door de prestaties van het officiële DeepSeek-R1-Distill-Qwen-7B-model op MATH500 te verhogen van 87,4% naar 91,2%.
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in algemene domeinen, maar hebben vaak moeite met taken die gespecialiseerde kennis vereisen. Conventionele Retrieval-Augmented Generation (RAG)-technieken halen doorgaans externe informatie uit statische kennisbanken, die verouderd of incompleet kunnen zijn, waardoor fijnmazige klinische details die essentieel zijn voor nauwkeurige medische vraagbeantwoording, ontbreken. In dit werk stellen we SearchRAG voor, een nieuw raamwerk dat deze beperkingen overwint door gebruik te maken van real-time zoekmachines. Onze methode maakt gebruik van synthetische querygeneratie om complexe medische vragen om te zetten in zoekmachinevriendelijke queries en benut onzekerheidsgebaseerde kennisselectie om de meest relevante en informatieve medische kennis te filteren en op te nemen in de input van het LLM. Experimentele resultaten tonen aan dat onze methode de nauwkeurigheid van antwoorden in medische vraagbeantwoordings taken aanzienlijk verbetert, met name voor complexe vragen die gedetailleerde en actuele kennis vereisen.
Grote Taalmodellen (LLMs) hebben natuurlijke taalverwerking aanzienlijk vooruitgebracht met uitzonderlijke mogelijkheden voor taakgeneralisatie. Low-Rank Adaption (LoRA) biedt een kosteneffectieve oplossing voor fine-tuning, waarbij de oorspronkelijke modelparameters worden bevroren en alleen lichtgewicht, laag-rang adaptermatrices worden getraind. Het geheugengebruik van LoRA wordt echter grotendeels bepaald door de oorspronkelijke modelparameters. Om dit te verlichten, stellen we LoRAM voor, een geheugenefficiënt LoRA-trainingsschema dat gebaseerd is op de intuïtie dat veel neuronen in overgeparameteriseerde LLMs een lage trainingsnut hebben, maar essentieel zijn voor inferentie. LoRAM introduceert een unieke draai: het traint op een gepruned (klein) model om geprunede laag-rang matrices te verkrijgen, die vervolgens worden hersteld en gebruikt met het oorspronkelijke (grote) model voor inferentie. Daarnaast minimaliseert een minimaal kostbare voortdurende pre-training, uitgevoerd door de modeluitgevers van tevoren, de kennisdiscrepantie tussen geprunede en oorspronkelijke modellen. Onze uitgebreide experimenten tonen de effectiviteit van LoRAM aan over verschillende pruningstrategieën en downstreamtaken. Voor een model met 70 miljard parameters maakt LoRAM training mogelijk op een GPU met slechts 20G HBM, waardoor een A100-80G GPU voor LoRA-training en 15 GPU's voor volledige fine-tuning worden vervangen. Specifiek reduceert QLoRAM, geïmplementeerd door gestructureerde pruning gecombineerd met 4-bit kwantisatie, voor LLaMA-3.1-70B (LLaMA-2-70B), de parameteropslagkosten die het geheugengebruik domineren in laag-rang matrixtraining met 15,81 keer (16,95 keer), terwijl het dominante prestatieverbeteringen behaalt ten opzichte van zowel de oorspronkelijke LLaMA-3.1-70B (LLaMA-2-70B) als LoRA-getrainde LLaMA-3.1-8B (LLaMA-2-13B).
Namen zijn sterk verbonden met de menselijke identiteit. Ze kunnen dienen als markers van individualiteit, cultureel erfgoed en persoonlijke geschiedenis. Het gebruik van namen als een kernindicator van identiteit kan echter leiden tot een te simplistische weergave van complexe identiteiten. Bij interactie met LLM's (Large Language Models) vormen gebruikersnamen een belangrijk informatiepunt voor personalisatie. Namen kunnen in chatbotgesprekken terechtkomen via directe gebruikersinvoer (gevraagd door chatbots), als onderdeel van taakcontexten zoals CV-beoordelingen, of als ingebouwde geheugenfuncties die gebruikersinformatie opslaan voor personalisatie. Wij bestuderen vooroordelen die aan namen zijn verbonden door culturele aannames te meten in de reacties die door LLM's worden gegenereerd wanneer ze worden gepresenteerd met veelvoorkomende vragen om suggesties, waarbij mogelijk aannames over de gebruiker worden gemaakt. Onze analyses tonen sterke aannames over culturele identiteit die aan namen zijn verbonden in de generaties van LLM's, over meerdere culturen heen. Ons werk heeft implicaties voor het ontwerpen van genuanceerdere personalisatiesystemen die stereotypering vermijden, terwijl ze zinvolle maatwerk blijven bieden.
De veiligheidsafstemming van grote taalmodellen (LLM's) blijft kwetsbaar, aangezien hun initiële gedrag eenvoudig kan worden omzeild door zelfs relatief eenvoudige aanvallen. Omdat het invullen van een vaste sjabloon tussen de invoerinstructie en de initiële modeluitvoer een gangbare praktijk is voor bestaande LLM's, stellen we de hypothese dat deze sjabloon een sleutelfactor is achter hun kwetsbaarheden: de veiligheidsgerichte besluitvorming van LLM's is te sterk afhankelijk van de geaggregeerde informatie uit het sjabloongebied, wat het veiligheidsgedrag van deze modellen sterk beïnvloedt. We verwijzen naar dit probleem als sjabloonverankerde veiligheidsafstemming. In dit artikel voeren we uitgebreide experimenten uit en bevestigen we dat sjabloonverankerde veiligheidsafstemming wijdverspreid is onder verschillende afgestemde LLM's. Onze mechanistische analyses tonen aan hoe dit leidt tot de vatbaarheid van modellen bij het tegenkomen van omzeilingsaanvallen tijdens de inferentie. Bovendien laten we zien dat het loskoppelen van veiligheidsmechanismen van het sjabloongebied veelbelovend is om de kwetsbaarheid voor omzeilingsaanvallen te verminderen. We moedigen toekomstig onderzoek aan om robuustere technieken voor veiligheidsafstemming te ontwikkelen die minder afhankelijk zijn van het sjabloongebied.
Huidige benaderingen voor het trainen van Process Reward Models (PRM's) omvatten vaak het opdelen van reacties in meerdere redeneerstappen met behulp van op regels gebaseerde technieken, zoals het gebruik van vooraf gedefinieerde placeholder-tokens of het vaststellen van de lengte van de redeneerstap in een vaste grootte. Deze benaderingen negeren het feit dat specifieke woorden doorgaans geen echte beslissingspunten in een tekst markeren. Om dit aan te pakken, stellen we AdaptiveStep voor, een methode die redeneerstappen verdeelt op basis van het vertrouwen van het model in het voorspellen van het volgende woord. Deze verdeelmethode biedt meer beslissingsinformatie bij elke stap, wat downstream taken, zoals het leren van beloningsmodellen, verbetert. Bovendien vereist onze methode geen handmatige annotatie. We demonstreren de effectiviteit ervan door experimenten met AdaptiveStep-getrainde PRM's in wiskundige redeneer- en codegeneratietaken. Experimentele resultaten tonen aan dat de resulterende PRM state-of-the-art Best-of-N prestaties behaalt, waarbij de gretige zoekstrategie met token-level waardegeleide decodering wordt overtroffen, terwijl ook de constructiekosten met meer dan 30% worden verlaagd in vergelijking met bestaande open-source PRM's. Daarnaast bieden we een grondige analyse en een casestudy over de prestaties, overdraagbaarheid en generalisatiecapaciteiten van de PRM.
3D-molecuulgeneratie is cruciaal voor geneesmiddelenontdekking en materiaalontwerp. Hoewel eerdere inspanningen zich richten op 3D-diffusiemodellen vanwege hun voordelen bij het modelleren van continue 3D-conformeren, negeren ze de voordelen van 1D SELFIES-gebaseerde taalmodellen (LMs), die 100% geldige moleculen kunnen genereren en gebruikmaken van de miljardenschalige 1D-molecuuldatasets. Om deze voordelen te combineren voor 3D-molecuulgeneratie, stellen we een foundation model voor -- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation. NExT-Mol gebruikt een uitgebreid voorgetraind molecuul-LM voor 1D-molecuulgeneratie, en voorspelt vervolgens de 3D-conformeren van het gegenereerde molecuul met een 3D-diffusiemodel. We verbeteren de prestaties van NExT-Mol door de modelgrootte van het LM op te schalen, de diffusieneurale architectuur te verfijnen en 1D-naar-3D transfer learning toe te passen. Opmerkelijk is dat ons 1D-molecuul-LM de baseline aanzienlijk overtreft in distributiegelijkheid terwijl het de geldigheid waarborgt, en ons 3D-diffusiemodel behaalt toonaangevende prestaties in conformervoorspelling. Gezien deze verbeteringen in 1D- en 3D-modellering, behaalt NExT-Mol een relatieve verbetering van 26% in 3D FCD voor de novo 3D-generatie op GEOM-DRUGS, en een gemiddelde relatieve winst van 13% voor voorwaardelijke 3D-generatie op QM9-2014. Onze codes en voorgetrainde checkpoints zijn beschikbaar op https://github.com/acharkq/NExT-Mol.
Grote Taalmodellen (LLM's) en Multimodale Grote Taalmodellen (MLLM's) hebben aanzienlijke vooruitgang geboekt in redeneervaardigheden. Ze kampen echter nog steeds met uitdagingen zoals hoge rekenkundige eisen en privacyzorgen. Dit artikel richt zich op de ontwikkeling van efficiënte Kleine Taalmodellen (SLM's) en Multimodale Kleine Taalmodellen (MSLM's) die competitieve redeneervaardigheden behouden. We introduceren een nieuwe trainingspijplijn die de redeneervaardigheden verbetert en de implementatie op edge-apparaten vergemakkelijkt, waarbij state-of-the-art prestaties worden behaald en de ontwikkelingskosten worden geminimaliseerd. \InfR~ streeft ernaar AI-systemen te verbeteren door de redeneervaardigheden te versterken, adoptiebarrières te verlagen en privacyzorgen aan te pakken door middel van kleinere modelgroottes. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiR.
Machine learning, de basis van moderne kunstmatige intelligentie, heeft innovaties aangestuurd die de wereld fundamenteel hebben getransformeerd. Echter, achter deze vooruitgang schuilt een complex en vaak moeizaam proces dat arbeidsintensieve en rekenkrachtige iteratie en experimentatie vereist. Ingenieurs en wetenschappers die machine learning-modellen ontwikkelen, besteden een groot deel van hun tijd aan trial-and-error taken in plaats van het bedenken van innovatieve oplossingen of onderzoekshypothesen. Om deze uitdaging aan te pakken, introduceren we AI-Driven Exploration (AIDE), een machine learning-engineering agent aangedreven door grote taalmodellen (LLMs). AIDE benadert machine learning-engineering als een code-optimalisatieprobleem en formuleert trial-and-error als een boomzoektocht in de ruimte van mogelijke oplossingen. Door strategisch veelbelovende oplossingen te hergebruiken en te verfijnen, wisselt AIDE effectief rekenbronnen in voor verbeterde prestaties, wat resulteert in state-of-the-art resultaten op meerdere machine learning-engineering benchmarks, waaronder onze Kaggle-evaluaties, OpenAI MLE-Bench en METRs RE-Bench.
We introduceren TESS 2, een algemeen instructievolgend diffusie-taalmodel dat hedendaagse instructie-afgestemde diffusiemodellen overtreft, en dat evenaart en soms zelfs sterke autoregressieve (AR) modellen overstijgt. We trainen TESS 2 door eerst een sterk AR-model aan te passen via voortgezette vooropleiding met de gebruikelijke kruisentropie als diffusieverlies, en vervolgens verdere instructie-afstemming uit te voeren. We ontdekken dat aanpassingstraining, evenals de keuze van het basismodel, cruciaal zijn voor het trainen van goede instructievolgende diffusiemodellen. We stellen verder beloningsbegeleiding voor, een nieuwe en modulaire begeleidingsprocedure tijdens de inferentie om modeluitvoeringen uit te lijnen zonder het onderliggende model te hoeven trainen. Tot slot tonen we aan dat TESS 2 verder verbetert met meer rekencapaciteit tijdens de inferentie, wat het nut van diffusie-LM's benadrukt bij het hebben van fijnmazige controle over de hoeveelheid rekenkracht die tijdens de inferentie wordt gebruikt. Code en modellen zijn beschikbaar op https://github.com/hamishivi/tess-2.
Op de lange termijn zijn open-domein dialoogcapaciteiten essentieel voor chatbots die eerdere interacties willen onthouden en emotionele intelligentie (EI) willen demonstreren. Toch vertrouwt het meeste bestaande onderzoek op synthetische, door LLM gegenereerde data, waardoor er vragen open blijven over conversatiepatronen in de echte wereld. Om deze kloof te dichten, introduceren we REALTALK, een 21-daags corpus van authentieke berichtenapp-dialogen, dat een directe benchmark biedt tegenover echte menselijke interacties. We beginnen met een datasetanalyse, waarbij we focussen op EI-kenmerken en persona-consistentie om de unieke uitdagingen van echte werelddialogen te begrijpen. Door vergelijking met door LLM gegenereerde gesprekken, benadrukken we belangrijke verschillen, waaronder diverse emotionele uitdrukkingen en variaties in persona-stabiliteit die synthetische dialogen vaak niet kunnen vastleggen. Gebaseerd op deze inzichten introduceren we twee benchmarktaken: (1) persona-simulatie, waarbij een model een gesprek voortzet namens een specifieke gebruiker op basis van eerdere dialoogcontext; en (2) geheugenpeiling, waarbij een model gerichte vragen beantwoordt die een langetermijngeheugen van eerdere interacties vereisen. Onze bevindingen tonen aan dat modellen moeite hebben om een gebruiker uitsluitend op basis van dialooggeschiedenis te simuleren, terwijl fine-tuning op specifieke gebruikerschats de persona-emulatie verbetert. Daarnaast ondervinden bestaande modellen aanzienlijke uitdagingen bij het oproepen en benutten van langetermijncontext binnen echte wereldconversaties.
Het gebruik van Large Language Models (LLM's) voor relevantiebeoordelingen biedt veelbelovende mogelijkheden om Informatie Retrieval (IR), Natural Language Processing (NLP) en aanverwante velden te verbeteren. Inderdaad, LLM's beloven IR-onderzoekers in staat te stellen evaluatiecollecties op te bouwen met slechts een fractie van het handmatige menselijke werk dat momenteel vereist is. Dit kan helpen bij nieuwe onderwerpen waarover nog beperkte kennis beschikbaar is en kan de uitdagingen van het evalueren van rankingsystemen in situaties met beperkte middelen verzachten, waar het moeilijk is om menselijke annotators te vinden. Gezien de snelle recente ontwikkelingen in dit domein, zijn er nog veel vragen over LLM's als beoordelaars die beantwoord moeten worden. Onder de aspecten die verder onderzoek vereisen, kunnen we de impact van verschillende componenten in een pijplijn voor het genereren van relevantiebeoordelingen noemen, zoals de gebruikte prompt of de gekozen LLM. Dit artikel evalueert en rapporteert over de resultaten van een grootschalige automatische relevantiebeoordeling, de LLMJudge-uitdaging op SIGIR 2024, waar verschillende benaderingen voor relevantiebeoordeling werden voorgesteld. In detail publiceren en evalueren we 42 door LLM's gegenereerde labels van de relevantiebeoordelingen van de TREC 2023 Deep Learning-track, geproduceerd door acht internationale teams die deelnamen aan de uitdaging. Vanwege hun diverse aard kunnen deze automatisch gegenereerde relevantiebeoordelingen de gemeenschap niet alleen helpen systematische vooroordelen veroorzaakt door LLM's te onderzoeken, maar ook de effectiviteit van ensemblemodellen verkennen, de afwegingen tussen verschillende modellen en menselijke beoordelaars analyseren, en methodologieën voor het verbeteren van geautomatiseerde evaluatietechnieken bevorderen. De vrijgegeven bron is beschikbaar op de volgende link: https://llm4eval.github.io/LLMJudge-benchmark/
Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in werkomgevingen voor een breed scala aan taken, waarbij ze uitblinken in het oplossen van individuele problemen in isolatie. Maar zijn ze ook in staat om effectief samen te werken tijdens langdurige interacties? Om dit te onderzoeken introduceren we MemoryCode, een synthetische dataset met meerdere sessies die is ontworpen om het vermogen van LLMs te testen om eenvoudige codeerinstructies te volgen en uit te voeren te midden van irrelevante informatie, wat een realistische setting simuleert. Hoewel alle geteste modellen geïsoleerde instructies goed aankunnen, verslechtert zelfs de prestaties van state-of-the-art modellen zoals GPT-4o wanneer instructies over meerdere sessies verspreid zijn. Onze analyse suggereert dat dit komt door hun onvermogen om informatie op te halen en te integreren over lange instructieketens. Onze resultaten benadrukken een fundamentele beperking van huidige LLMs, wat hun vermogen om effectief samen te werken in langdurige interacties beperkt.
Generatieve aanbeveling (GR) is een opkomend paradigma waarbij gebruikersacties worden getokeniseerd in discrete tokenpatronen en autoregressief worden gegenereerd als voorspellingen. Bestaande GR-modellen tokeniseren echter elke actie onafhankelijk, waarbij dezelfde vaste tokens worden toegewezen aan identieke acties in alle sequenties, zonder rekening te houden met contextuele relaties. Dit gebrek aan contextbewustzijn kan leiden tot suboptimale prestaties, aangezien dezelfde actie verschillende betekenissen kan hebben afhankelijk van de omringende context. Om dit probleem aan te pakken, stellen we ActionPiece voor, waarbij context expliciet wordt meegenomen bij het tokeniseren van actiesequenties. In ActionPiece wordt elke actie weergegeven als een set van itemkenmerken, die dienen als de initiële tokens. Gegeven de corpora van actiesequenties, construeren we de vocabulaire door kenmerkpatronen samen te voegen als nieuwe tokens, gebaseerd op hun co-voorkomfrequentie zowel binnen individuele sets als over aangrenzende sets. Gezien de ongeordende aard van kenmerksets, introduceren we verder setpermutatieregularisatie, wat meerdere segmentaties van actiesequenties met dezelfde semantiek oplevert. Experimenten op openbare datasets tonen aan dat ActionPiece consistent beter presteert dan bestaande methoden voor actietokenisatie, met een verbetering van NDCG@10 met 6,00% tot 12,82%.
Hallucinaties in de uitvoer van grote taalmodellen (LLM's) beperken hun betrouwbaarheid aanzienlijk bij kennisintensieve taken zoals vraagbeantwoording. Om deze uitdaging aan te pakken, introduceren we REFIND (Retrieval-augmented Factuality hallucINation Detection), een nieuw framework dat hallucinaties in LLM-uitvoer detecteert door direct gebruik te maken van opgehaalde documenten. Als onderdeel van REFIND stellen we de Context Sensitivity Ratio (CSR) voor, een nieuwe metriek die de gevoeligheid van LLM-uitvoer voor opgehaald bewijsmateriaal kwantificeert. Deze innovatieve aanpak stelt REFIND in staat om hallucinaties efficiënt en nauwkeurig te detecteren, wat het onderscheidt van bestaande methoden. In de evaluatie toonde REFIND robuustheid aan in negen talen, inclusief situaties met beperkte bronnen, en presteerde het aanzienlijk beter dan baseline-modellen, met superieure IoU-scores bij het identificeren van hallucinaties. Dit werk benadrukt de effectiviteit van het kwantificeren van contextgevoeligheid voor hallucinatiedetectie, waardoor de weg wordt geëffend voor betrouwbaardere en vertrouwenswaardigere LLM-toepassingen in diverse talen.
Meerkeuzevraagbeantwoording (MCQA) is populair voor de evaluatie van LLM's vanwege de eenvoud en mensachtige testmethode, maar wij pleiten voor hervorming ervan. We onthullen eerst tekortkomingen in het MCQA-formaat, omdat het moeite heeft met: 1) het testen van generatie/subjectiviteit; 2) het matchen van LLM-gebruiksscenario's; en 3) het volledig testen van kennis. In plaats daarvan bepleiten we generatieve formaten gebaseerd op menselijke testmethoden, waarbij LLM's antwoorden construeren en uitleggen, wat beter aansluit bij gebruikersbehoeften en kennis, terwijl het gemakkelijk te scoren blijft. Vervolgens tonen we aan dat zelfs wanneer MCQA een nuttig formaat is, de datasets problemen hebben zoals: lekken; onbeantwoordbaarheid; shortcuts; en verzadiging. Voor elk probleem bieden we oplossingen uit het onderwijs, zoals rubrics om het schrijven van MCQs te begeleiden; scoringsmethoden om gokken in te perken; en Item Response Theory om moeilijkere MCQs te maken. Ten slotte bespreken we LLM-fouten in MCQA, zoals robuustheid, biases en onbetrouwbare verklaringen, en laten we zien hoe onze eerdere oplossingen deze problemen beter meten of aanpakken. Hoewel we MCQA niet hoeven te verlaten, moedigen we meer inspanningen aan om de taak te verfijnen op basis van educatieve testmethoden, waardoor evaluaties worden verbeterd.
Grote Vision-Taalmodellen (LVLMs) hebben recentelijk aandacht gekregen vanwege hun opvallende prestaties en brede toepasbaarheid. Hoewel eerder is aangetoond dat hun effectiviteit in gebruiksscenario's die niet-Westerse contexten betreffen tekortschiet, zijn bestaande studies beperkt in omvang, waarbij slechts een smal scala aan culturen wordt bestreken, uitsluitend wordt gefocust op een klein aantal culturele aspecten, of slechts een beperkte selectie van modellen op één enkele taak wordt geëvalueerd. In de richting van wereldwijd inclusief LVLM-onderzoek introduceren we GIMMICK, een uitgebreide multimodale benchmark die is ontworpen om een breed spectrum aan culturele kennis te beoordelen over 144 landen die zes wereldwijde macroregio's vertegenwoordigen. GIMMICK omvat zes taken gebaseerd op drie nieuwe datasets die 728 unieke culturele gebeurtenissen of facetten beslaan, waarop we 20 LVLMs en 11 LLMs hebben geëvalueerd, waaronder vijf propriëtaire en 26 open-weight modellen van alle formaten. We onderzoeken systematisch (1) regionale culturele vooroordelen, (2) de invloed van modelgrootte, (3) invoermodaliteiten, en (4) externe aanwijzingen. Onze analyses onthullen sterke vooroordelen ten opzichte van Westerse culturen over modellen en taken heen en benadrukken sterke correlaties tussen modelgrootte en prestaties, evenals de effectiviteit van multimodale invoer en externe geografische aanwijzingen. We constateren verder dat modellen meer kennis hebben van tastbare dan van ontastbare aspecten (bijv. voedsel vs. rituelen) en dat ze uitblinken in het herkennen van brede culturele oorsprongen, maar moeite hebben met een meer genuanceerd begrip.
Bestaande meertalige visueel-taalkundige (VL) benchmarks beslaan vaak slechts een handvol talen. Als gevolg hiervan richten evaluaties van grote visueel-taalkundige modellen (LVLMs) zich voornamelijk op talen met veel bronnen, wat de behoefte aan evaluatiegegevens voor talen met weinig bronnen onderstreept. Om deze beperking aan te pakken, introduceren we MVL-SIB, een massaal meertalige visueel-taalkundige benchmark die zowel cross-modale als tekstuele thematische matching evalueert over 205 talen — meer dan 100 talen meer dan de meest meertalige bestaande VL benchmarks omvatten. Vervolgens testen we een reeks open-gewicht LVLMs samen met GPT-4o(-mini) op MVL-SIB. Onze resultaten laten zien dat LVLMs moeite hebben met cross-modale thematische matching in talen met weinig bronnen, waarbij ze niet beter presteren dan toeval voor talen zoals N'Koo. Onze analyse toont verder aan dat VL-ondersteuning in LVLMs onevenredig afneemt in vergelijking met tekstuele ondersteuning voor talen met weinig bronnen, zoals blijkt uit de vergelijking van cross-modale en tekstuele thematische matchingprestaties. We merken ook op dat open-gewicht LVLMs geen voordeel halen uit het representeren van een thema met meer dan één afbeelding, wat suggereert dat deze modellen nog niet volledig effectief zijn in het omgaan met taken met meerdere afbeeldingen. Door de prestaties op MVL-SIB te correleren met andere meertalige VL benchmarks, benadrukken we dat MVL-SIB dient als een uitgebreide test van meertalig VL-begrip in LVLMs.
Ondanks recente vooruitgang in Novel View Synthesis (NVS) blijft het genereren van hoogwaardige beelden vanuit enkele of schaarse observaties een aanzienlijke uitdaging. Bestaande op splatting gebaseerde benaderingen produceren vaak vervormde geometrie door splattingfouten. Hoewel op diffusie gebaseerde methoden rijke 3D-priors benutten om een verbeterde geometrie te bereiken, lijden ze vaak onder texture hallucinatie. In dit artikel introduceren we SplatDiff, een op pixel-splatting gebaseerd videodiffusiemodel dat is ontworpen om hoogwaardige nieuwe beelden te synthetiseren vanuit een enkele afbeelding. Specifiek stellen we een uitgelijnde synthesestrategie voor voor precieze controle van doelperspectieven en geometrie-consistente beeldsynthese. Om texture hallucinatie te verminderen, ontwerpen we een texture bridge module die hoogwaardige texturegeneratie mogelijk maakt door adaptieve featurefusie. Op deze manier benut SplatDiff de sterke punten van splatting en diffusie om nieuwe beelden te genereren met consistente geometrie en hoogwaardige details. Uitgebreide experimenten bevestigen de state-of-the-art prestaties van SplatDiff in single-view NVS. Daarnaast toont SplatDiff, zonder extra training, opmerkelijke zero-shot prestaties in diverse taken, waaronder sparse-view NVS en stereo videoconversie.
Semi-supervised heterogene domeinadaptatie (SHDA) richt zich op leren over domeinen met verschillende kenmerkrepresentaties en verdelingen, waarbij bronmonsters gelabeld zijn terwijl de meeste doelmonsters ongelabeld zijn, met slechts een klein deel gelabeld. Bovendien is er geen één-op-één correspondentie tussen bron- en doelmonsters. Hoewel diverse SHDA-methoden zijn ontwikkeld om dit probleem aan te pakken, blijft de aard van de kennis die over heterogene domeinen wordt overgedragen onduidelijk. Dit artikel gaat dieper in op deze vraag vanuit een empirisch perspectief. We voeren uitgebreide experimenten uit op ongeveer 330 SHDA-taken, waarbij we twee gesuperviseerde leermethoden en zeven representatieve SHDA-methoden gebruiken. Verrassend genoeg geven onze observaties aan dat zowel de categorie- als kenmerkinformatie van bronmonsters geen significante invloed hebben op de prestaties van het doeldomein. Daarnaast kan ruis afkomstig van eenvoudige verdelingen, wanneer gebruikt als bronmonsters, overdraagbare kennis bevatten. Op basis van dit inzicht voeren we een reeks experimenten uit om de onderliggende principes van overdraagbare kennis in SHDA te ontdekken. Specifiek ontwerpen we een uniform Kennisoverdrachtsraamwerk (KTF) voor SHDA. Op basis van het KTF ontdekken we dat de overdraagbare kennis in SHDA voornamelijk voortkomt uit de overdraagbaarheid en onderscheidbaarheid van het brondomein. Het waarborgen van deze eigenschappen in bronmonsters, ongeacht hun oorsprong (bijv. afbeelding, tekst, ruis), kan de effectiviteit van kennisoverdracht in SHDA-taken verbeteren. De codes en datasets zijn beschikbaar op https://github.com/yyyaoyuan/SHDA.
Het vermogen om SPARQL-query's te genereren uit vragen in natuurlijke taal is cruciaal voor een efficiënte en accurate ophalen van gestructureerde gegevens uit kennisgrafieken (KG). Hoewel grote taalmodellen (LLM's) veelvuldig worden ingezet voor het genereren van SPARQL-query's, zijn ze vaak gevoelig voor hallucinaties en out-of-distribution fouten bij het produceren van KG-elementen zoals Uniform Resource Identifiers (URI's) op basis van interne parametrische kennis. Dit resulteert vaak in inhoud die plausibel lijkt maar feitelijk onjuist is, wat aanzienlijke uitdagingen oplevert voor hun gebruik in real-world informatie-ophalingsapplicaties (IR). Dit heeft geleid tot toenemend onderzoek gericht op het detecteren en mitigeren van dergelijke fouten. In dit artikel introduceren we PGMR (Post-Generation Memory Retrieval), een modulair framework dat een niet-parametrische geheugenmodule integreert om KG-elementen op te halen en de op LLM gebaseerde SPARQL-querygeneratie te verbeteren. Onze experimentele resultaten tonen aan dat PGMR consistent sterke prestaties levert over diverse datasets, dataverdelingen en LLM's. Opmerkelijk is dat PGMR URI-hallucinaties aanzienlijk vermindert, waardoor het probleem in verschillende scenario's vrijwel wordt geëlimineerd.