Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het opschalen van de rekencapaciteit tijdens het testen van grote taalmodel- len heeft indrukwekkende prestaties laten zien op redeneerbenchmarks. Bestaande evaluaties van testtijd-opschaling gaan echter uit van de sterke aanname dat een redeneersysteem altijd een antwoord moet geven op elke gestelde vraag. Dit negeert zorgen over of een model zeker is van zijn antwoord, en of het gepast is om altijd een reactie te geven. Om deze zorgen aan te pakken, extraheren we betrouwbaarheidsscores tijdens het redeneren om modelreacties te drempelen. We vinden dat het verhogen van het rekenbudget tijdens inferentie niet alleen modellen helpt meer vragen correct te beantwoorden, maar ook het vertrouwen in correcte antwoorden vergroot. We breiden vervolgens het huidige paradigma van nul-risico reacties tijdens evaluatie uit door situaties met niet-nul niveaus van reactierisico te overwegen, en stellen een aanpak voor om evaluaties onder deze omstandigheden te rapporteren.
Bestaande end-to-end spraak grote taalmodellen (LLMs) zijn meestal afhankelijk van grootschalige geannoteerde data voor training, terwijl data-efficiënte training nog niet diepgaand is besproken. Wij richten ons op twee fundamentele problemen tussen spraak en tekst: de representatieruimtekloof en de inconsistentie in sequentielengte. Wij stellen Soundwave voor, dat een efficiënte trainingsstrategie en een nieuwe architectuur gebruikt om deze problemen aan te pakken. Resultaten tonen aan dat Soundwave de geavanceerde Qwen2-Audio overtreft in spraakvertaling en AIR-Bench spraaktaken, terwijl slechts één vijftigste van de trainingsdata wordt gebruikt. Verdere analyse toont aan dat Soundwave zijn intelligentie behoudt tijdens gesprekken. Het project is beschikbaar op https://github.com/FreedomIntelligence/Soundwave.
Een reeks recente werken richt zich op het probleem van het comprimeren van een reeks tokens tot een kortere reeks reëelwaardige vectoren die als invoer worden gebruikt in plaats van token embeddings of key-value cache. Deze benaderingen maken het mogelijk om de hoeveelheid benodigde rekenkracht in bestaande taalmodellen te verminderen. Ondanks het gebruik van krachtige modellen als encoders, is de maximaal haalbare verliesvrije compressieratio doorgaans niet hoger dan x10. Dit feit is zeer intrigerend omdat, in theorie, de maximale informatiedraagkracht van grote reëelwaardige vectoren ver boven de gepresenteerde ratios ligt, zelfs voor 16-bit precisie en een bescheiden vectorgrootte. In dit werk onderzoeken we de grenzen van compressie door de encoder te vervangen door een per-sample optimalisatieprocedure. We laten zien dat vectoren met compressieratios tot x1500 bestaan, wat een kloof van twee grootteordes benadrukt tussen bestaande en praktisch haalbare oplossingen. Bovendien tonen we empirisch aan dat de compressiegrenzen niet worden bepaald door de lengte van de invoer, maar door de hoeveelheid onzekerheid die moet worden verminderd, namelijk de kruisentropieverlies op deze reeks zonder enige conditionering. De verkregen grenzen benadrukken de aanzienlijke kloof tussen de theoretische capaciteit van invoer-embeddings en hun praktische benutting, wat suggereert dat er aanzienlijke ruimte is voor optimalisatie in modelontwerp.
De voortdurende ontwikkeling van fundamentele modellen voor videogeneratie evolueert naar diverse toepassingen, waarbij onderwerp-consistente videogeneratie zich nog in de verkennende fase bevindt. Wij verwijzen hiernaar als Subject-to-Video, waarbij onderwerpelementen uit referentiebeelden worden geëxtraheerd en onderwerp-consistente video wordt gegenereerd via tekstuele instructies. Wij geloven dat de essentie van subject-to-video ligt in het balanceren van de duale modale prompts van tekst en beeld, waardoor zowel tekstuele als visuele inhoud diepgaand en gelijktijdig worden uitgelijnd. Hiertoe stellen wij Phantom voor, een uniform videogeneratiekader voor zowel enkele als meerdere onderwerp-referenties. Gebaseerd op bestaande tekst-naar-video en beeld-naar-video-architecturen, herontwerpen wij het gezamenlijke tekst-beeld-injectiemodel en laten het cross-modale uitlijning leren via tekst-beeld-video tripletdata. In het bijzonder benadrukken wij onderwerpconsistentie bij menselijke generatie, waarbij bestaande ID-behoudende videogeneratie wordt gedekt en tegelijkertijd verbeterde voordelen worden geboden. De projecthomepage is hier te vinden: https://phantom-video.github.io/Phantom/.
We presenteren Magma, een foundation model dat multimodale AI-agenttaken uitvoert in zowel de digitale als de fysieke wereld. Magma is een significante uitbreiding van visie-taalmodellen (VL-modellen) omdat het niet alleen het begripsvermogen van VL-modellen (verbale intelligentie) behoudt, maar ook is uitgerust met het vermogen om te plannen en te handelen in de visueel-ruimtelijke wereld (ruimtelijk-temporele intelligentie) en agenttaken uit te voeren, variërend van UI-navigatie tot robotmanipulatie. Om deze agentmogelijkheden te bieden, is Magma voorgetraind op grote hoeveelheden heterogene datasets, variërend van afbeeldingen en video's tot robotica-data, waarbij de actiegerichte visuele objecten (bijvoorbeeld klikbare knoppen in een GUI) in afbeeldingen zijn gelabeld met Set-of-Mark (SoM) voor actieverankering, en de objectbewegingen (bijvoorbeeld het spoor van menselijke handen of robotarmen) in video's zijn gelabeld met Trace-of-Mark (ToM) voor actieplanning. Uitgebreide experimenten tonen aan dat SoM en ToM een grote synergie bereiken en de verwerving van ruimtelijk-temporele intelligentie voor ons Magma-model vergemakkelijken, wat fundamenteel is voor een breed scala aan taken, zoals getoond in Fig.1. In het bijzonder behaalt Magma nieuwe state-of-the-art resultaten op het gebied van UI-navigatie en robotmanipulatietaken, waarbij het eerdere modellen die specifiek voor deze taken zijn ontworpen, overtreft. Op multimodale taken gerelateerd aan afbeeldingen en video's presteert Magma ook gunstig in vergelijking met populaire grote multimodale modellen die op veel grotere datasets zijn getraind. We maken ons model en code openbaar voor reproduceerbaarheid op https://microsoft.github.io/Magma.
Diffusiemodellen zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve modellen bij het modelleren van discrete categorische data. Toch benutten diffusiemodellen die rechtstreeks werken op discrete data de kracht van iteratieve verfijning niet volledig, omdat de signalen verloren gaan tijdens de overgang tussen discrete toestanden. Bestaande continue diffusiemodellen voor discrete data presteren beperkt in vergelijking met discrete benaderingen, en de onduidelijke link tussen beide belemmert de ontwikkeling van diffusiemodellen voor discrete data. In dit werk stellen we een continu diffusiemodel voor taalmodellering voor dat de geometrie van de onderliggende categorische verdeling incorporeert. We leggen een verband tussen discrete diffusie en continue stroming op de statistische variëteit, en voortbouwend op deze analogie introduceren we een eenvoudig ontwerp voor het diffusieproces dat eerdere discrete diffusiemodellen generaliseert. We stellen verder een simulatievrij trainingsraamwerk voor op basis van radiale symmetrie en een eenvoudige techniek om de hoge dimensionaliteit van de variëteit aan te pakken. Uitgebreide experimenten op taalmodelleringsbenchmarks en andere modaliteiten tonen aan dat onze methode bestaande discrete diffusiemodellen overtreft en de prestaties van autoregressieve modellen benadert. Code is beschikbaar op https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Recente Multimodale Grote Taalmodellen (MLLMs) hebben opmerkelijke prestaties behaald, maar worden geconfronteerd met implementatie-uitdagingen vanwege hun kwadratische rekencomplexiteit, groeiende vereisten voor Key-Value caches en afhankelijkheid van aparte visuele encoders. Wij stellen mmMamba voor, een raamwerk voor het ontwikkelen van lineair-complexe native multimodale state space-modellen door middel van progressieve distillatie van bestaande MLLMs met behulp van bescheiden academische rekenbronnen. Onze aanpak maakt de directe omzetting mogelijk van getrainde decoder-only MLLMs naar lineair-complexe architecturen zonder dat vooraf getrainde RNN-gebaseerde LLM of visuele encoders nodig zijn. Wij stellen een seeding-strategie voor om Mamba uit getrainde Transformers te vormen en een drie-fasen distillatierecept, dat effectief kennis van Transformer naar Mamba kan overdragen terwijl multimodale capaciteiten behouden blijven. Onze methode ondersteunt ook flexibele hybride architecturen die Transformer- en Mamba-lagen combineren voor aanpasbare efficiëntie-prestatie afwegingen. Gedistilleerd uit de Transformer-gebaseerde decoder-only HoVLE, behaalt mmMamba-linear concurrerende prestaties ten opzichte van bestaande lineaire en kwadratisch-complexe VLMs, terwijl mmMamba-hybrid de prestaties aanzienlijk verder verbetert en de capaciteiten van HoVLE benadert. Bij 103K tokens demonstreert mmMamba-linear een 20,6-voudige snelheidswinst en een 75,8% reductie in GPU-geheugen vergeleken met HoVLE, terwijl mmMamba-hybrid een 13,5-voudige snelheidswinst en 60,2% geheugenbesparing bereikt. Code en modellen zijn vrijgegeven op https://github.com/hustvl/mmMamba.
Het begrijpen van menselijke voorkeuren is cruciaal voor het verbeteren van foundationmodellen en het bouwen van gepersonaliseerde AI-systemen. Voorkeuren zijn echter van nature divers en complex, waardoor het voor traditionele beloningsmodellen moeilijk is om hun volledige reikwijdte vast te leggen. Hoewel fijnmazige voorkeursgegevens kunnen helpen, is het verzamelen ervan kostbaar en moeilijk op te schalen. In dit artikel introduceren we Decomposed Reward Models (DRMs), een nieuwe aanpak die diverse menselijke voorkeuren extraheert uit binaire vergelijkingen zonder dat fijnmazige annotaties nodig zijn. Onze belangrijkste inzicht is om menselijke voorkeuren als vectoren weer te geven en ze te analyseren met behulp van Principal Component Analysis (PCA). Door een dataset te construeren van embeddingverschillen tussen voorkeurs- en afgewezen reacties, identificeren DRMs orthogonale basisvectoren die verschillende aspecten van voorkeur vastleggen. Deze ontbonden beloningen kunnen flexibel worden gecombineerd om aan te sluiten bij verschillende gebruikersbehoeften, wat een interpreteerbaar en schaalbaar alternatief biedt voor traditionele beloningsmodellen. We demonstreren dat DRMs effectief betekenisvolle voorkeursdimensies (bijv. behulpzaamheid, veiligheid, humor) extraheren en zich aanpassen aan nieuwe gebruikers zonder aanvullende training. Onze resultaten benadrukken DRMs als een krachtig raamwerk voor gepersonaliseerde en interpreteerbare LLM-afstemming.
In tegenstelling tot RNN's, die voorgaande tokens comprimeren in een enkele verborgen toestand, kunnen Transformers direct aandacht besteden aan alle voorgaande tokens. Standaard Transformers gebruiken echter alleen representaties uit de direct voorafgaande laag. In dit artikel tonen we aan dat deze ontwerpkeuze leidt tot representatie-inzakking en suboptimale prestaties. Om dit probleem aan te pakken, introduceren we Layer-Integrated Memory (LIMe), een eenvoudige maar krachtige aanpak die de geheugenvoetafdruk van het model behoudt, terwijl de representatiecapaciteit wordt uitgebreid door toegang te bieden tot verborgen toestanden uit eerdere lagen. Door uitgebreide experimenten met verschillende architecturen en verschillende opzoekmechanismen laten we consistente prestatieverbeteringen zien op een breed scala aan taken. Bovendien onthult onze analyse van de geleerde representatiedynamiek en onze verkenning van dieptewaartse circuits hoe LIMe informatie integreert over verschillende lagen, wat wijst op veelbelovende richtingen voor toekomstig onderzoek.
Grote taalmodellen (LLMs) die zijn afgestemd op multimodale financiële gegevens hebben indrukwekkende redeneervaardigheden getoond bij diverse financiële taken. Ze hebben echter vaak moeite met meerstaps, doelgerichte scenario's in interactieve financiële markten, zoals handel, waar complexe agent-gebaseerde benaderingen nodig zijn om de besluitvorming te verbeteren. Om dit aan te pakken, stellen we FLAG-Trader voor, een uniforme architectuur die linguïstische verwerking (via LLMs) integreert met gradiënt-gestuurde reinforcement learning (RL) beleidsoptimalisatie, waarbij een gedeeltelijk afgestemd LLM fungeert als het beleidsnetwerk, gebruikmakend van vooraf getrainde kennis terwijl het zich aanpast aan het financiële domein via parameter-efficiënte afstemming. Door beleidsgradiëntoptimalisatie aangedreven door handelsbeloningen, verbetert ons framework niet alleen de prestaties van LLMs in handel, maar ook de resultaten bij andere taken in het financiële domein. We presenteren uitgebreid empirisch bewijs om deze verbeteringen te valideren.
Ruimtelijke intelligentie is een cruciaal onderdeel van embodied AI, waardoor robots hun omgeving kunnen begrijpen en ermee kunnen interacteren. Hoewel recente vooruitgang het vermogen van VLMs (Vision-Language Models) heeft verbeterd om objectlocaties en positionele relaties waar te nemen, ontbreekt het hen nog steeds aan het vermogen om objectoriëntaties precies te begrijpen—een essentiële vereiste voor taken die fijnmazige manipulaties vereisen. Het aanpakken van deze beperking vereist niet alleen geometrisch redeneren, maar ook een expressieve en intuïtieve manier om oriëntatie weer te geven. In deze context stellen we voor dat natuurlijke taal een flexibeler representatieruimte biedt dan canonieke referentiekaders, waardoor het bijzonder geschikt is voor instructievolgende robotsystemen. In dit artikel introduceren we het concept van semantische oriëntatie, dat objectoriëntaties definieert met behulp van natuurlijke taal op een referentiekader-vrije manier (bijvoorbeeld de ''insteekrichting'' van een USB of de ''handgreeprichting'' van een mes). Om dit te ondersteunen, hebben we OrienText300K geconstrueerd, een grootschalige dataset van 3D-modellen geannoteerd met semantische oriëntaties die geometrisch begrip koppelen aan functionele semantiek. Door semantische oriëntatie te integreren in een VLM-systeem, stellen we robots in staat om manipulatietaken te genereren met zowel positionele als oriëntatiebeperkingen. Uitgebreide experimenten in simulatie en de echte wereld tonen aan dat onze aanpak de manipulatiecapaciteiten van robots aanzienlijk verbetert, bijvoorbeeld met een nauwkeurigheid van 48,7% op Open6DOR en 74,9% op SIMPLER.
Het inzetten van grote taalmodellen (LLMs) in real-world toepassingen vereist robuuste veiligheidsmodellen om schadelijke gebruikersprompts te detecteren en te blokkeren. Hoewel grote veiligheidsmodellen sterke prestaties leveren, zijn de rekenkosten aanzienlijk. Om dit te beperken, worden kleinere gedistilleerde modellen gebruikt, maar deze presteren vaak minder goed op "moeilijke" voorbeelden waar het grotere model nauwkeurige voorspellingen geeft. We merken op dat veel invoer betrouwbaar kan worden afgehandeld door het kleinere model, terwijl slechts een klein deel de capaciteit van het grotere model vereist. Gemotiveerd door dit inzicht, stellen we SafeRoute voor, een binaire router die moeilijke voorbeelden van eenvoudige onderscheidt. Onze methode past het grotere veiligheidsmodel selectief toe op gegevens die de router als moeilijk beschouwt, waardoor de efficiëntie wordt verbeterd terwijl de nauwkeurigheid behouden blijft in vergelijking met het uitsluitend gebruik van het grotere veiligheidsmodel. Experimentele resultaten op meerdere benchmarkdatasets tonen aan dat onze adaptieve modelselectie de afweging tussen rekenkosten en veiligheidsprestaties aanzienlijk verbetert en relevante baselines overtreft.
Het oplossen van complexe redeneertaken kan visueel begrip, het ophalen van domeinkennis, numerieke berekeningen en meerstaps redeneren omvatten. Bestaande methoden versterken grote taalmmodellen (LLMs) met externe tools, maar zijn beperkt tot gespecialiseerde domeinen, beperkte tooltypes of vereisen aanvullende trainingsdata. In dit artikel introduceren we OctoTools, een trainingsvrij, gebruiksvriendelijk en gemakkelijk uitbreidbaar open-source agentisch framework ontworpen om complex redeneren in diverse domeinen aan te pakken. OctoTools introduceert gestandaardiseerde toolkaarten om toolfunctionaliteit te encapsuleren, een planner voor zowel hoog- als laagniveau planning, en een uitvoerder om toolgebruik uit te voeren. We valideren de algemene bruikbaarheid van OctoTools over 16 diverse taken (waaronder MathVista, MMLU-Pro, MedQA en GAIA-Text), waarbij we een gemiddelde nauwkeurigheidsverbetering van 9,3% behalen ten opzichte van GPT-4o. Bovendien presteert OctoTools beter dan AutoGen, GPT-Functions en LangChain met een marge van maximaal 10,6% wanneer dezelfde set tools wordt gebruikt. Door uitgebreide analyse en ablatieonderzoeken toont OctoTools voordelen in taakplanning, effectief toolgebruik en meerstaps probleemoplossing.
Large Language Models (LLMs) bereiken superieure prestaties door schaling tijdens de training, en schaling tijdens de testfase verbetert hun capaciteiten verder door effectief redeneren tijdens de inferentie. Echter, naarmate de schaal van het redeneren toeneemt, lijden bestaande methoden voor schaling tijdens de testfase onder opgestapelde historische informatie, wat niet alleen rekenbronnen verspilt maar ook effectief redeneren verstoort. Om dit probleem aan te pakken, observeren we dat complexe redeneerprocessen vaak worden bereikt door een reeks onafhankelijke subvragen op te lossen, waarbij elke subvraag op zichzelf staand en verifieerbaar is. Deze subvragen zijn in wezen atomische vragen, die voornamelijk afhankelijk zijn van hun huidige staat in plaats van opgestapelde geschiedenis, vergelijkbaar met de geheugenloze overgangen in een Markov-proces. Op basis van deze observatie stellen we Atom of Thoughts (AoT) voor, waarbij elke staatsovergang in het redeneerproces bestaat uit het ontbinden van de huidige vraag in een op afhankelijkheden gebaseerde gerichte acyclische graaf en het samentrekken van de subvragen, waardoor een nieuwe atomische vraagstaat ontstaat. Dit iteratieve ontbindings- en samentrekkingsproces gaat door totdat direct oplosbare atomische vragen worden bereikt, waardoor natuurlijk Markov-overgangen tussen vraagstaten worden gerealiseerd. Bovendien kunnen deze atomische vragen naadloos worden geïntegreerd in bestaande methoden voor schaling tijdens de testfase, waardoor AoT kan dienen als een plug-in verbetering voor het verbeteren van redeneercapaciteiten. Experimenten op zes benchmarks tonen de effectiviteit van AoT aan, zowel als een op zichzelf staand framework als een plug-in verbetering. Opmerkelijk is dat op HotpotQA, wanneer toegepast op gpt-4o-mini, AoT een F1-score van 80,6% behaalt, wat o3-mini met 3,4% en DeepSeek-R1 met 10,6% overtreft. De code zal beschikbaar zijn op https://github.com/qixucen/atom.
Na voorafgaande training op uitgebreide afbeelding-tekstparen toont Contrastive Language-Image Pre-training (CLIP) veelbelovende prestaties op een breed scala aan benchmarks. Een aanzienlijke hoeveelheid niet-gepaarde gegevens, zoals multimodale interleaved documenten, blijft echter onderbenut voor visueel-taalkundige representatieleer. Om deze niet-gepaarde documenten volledig te benutten, stellen we eerst een Real-World Data Extraction-pijplijn op om hoogwaardige afbeeldingen en teksten te extraheren. Vervolgens ontwerpen we een hiërarchische retrievamethode om elke afbeelding efficiënt te koppelen aan meerdere semantisch relevante realistische teksten. Om fijnmazige visuele informatie verder te versterken, stellen we een module voor semantische augmentatie van afbeeldingen voor voor de productie van synthetische tekst. Bovendien gebruiken we een semantische balanssteekproefstrategie om de diversiteit van de dataset te verbeteren, waardoor het leren van langstaartconcepten beter mogelijk wordt. Op basis van deze innovaties construeren we RealSyn, een dataset die realistische en synthetische teksten combineert, beschikbaar in drie schalen: 15M, 30M en 100M. Uitgebreide experimenten tonen aan dat RealSyn de visueel-taalkundige representatieleer effectief bevordert en sterke schaalbaarheid vertoont. Modellen die vooraf zijn getraind op RealSyn behalen state-of-the-art prestaties op meerdere downstream taken. Om toekomstig onderzoek te vergemakkelijken, zijn de RealSyn-dataset en de vooraf getrainde modelgewichten vrijgegeven op https://github.com/deepglint/RealSyn.
De opkomst van schaling tijdens testtijd in grote taalmmodellen (LLM's), geïllustreerd door OpenAI's o1-serie, heeft de redeneervaardigheden verbeterd door de toewijzing van rekenbronnen tijdens inferentie te schalen. Hoewel opvolgers zoals QwQ, Deepseek-R1 (R1) en LIMO deze vooruitgang repliceren, blijft de vraag of deze modellen daadwerkelijk schaalcapaciteiten tijdens testtijd bezitten onderbelicht. Deze studie toonde aan dat langere ketens van gedachten (CoT's) van deze o1-achtige modellen niet consistent tot een hogere nauwkeurigheid leiden; in feite zijn correcte oplossingen vaak korter dan incorrecte voor dezelfde vragen. Verder onderzoek toont aan dat dit fenomeen nauw samenhangt met de zelfrevisiecapaciteiten van modellen - langere CoT's bevatten meer zelfrevisies, wat vaak leidt tot prestatievermindering. We vergelijken vervolgens sequentiële en parallelle schaalstrategieën op QwQ, R1 en LIMO, en ontdekken dat parallelle schaling een betere dekking en schaalbaarheid bereikt. Op basis van deze inzichten stellen we Shortest Majority Vote voor, een methode die parallelle schaalstrategieën combineert met CoT-lengtekenmerken, wat de schaalbaarheid van modellen tijdens testtijd aanzienlijk verbetert in vergelijking met conventionele meerderheidsstemmingsbenaderingen.
Hoewel Large Language Models (LLM's) zich goed aanpassen aan downstream taken na fine-tuning, gaat deze aanpasbaarheid vaak ten koste van de robuustheid van prompts, aangezien zelfs kleine variaties in prompts de prestaties aanzienlijk kunnen verslechteren. Om dit aan te pakken, stellen we Prompt-Agnostic Fine-Tuning (PAFT) voor, een eenvoudige maar effectieve aanpak die prompts dynamisch aanpast tijdens het fine-tuning proces. Dit moedigt het model aan om de onderliggende taakprincipes te leren in plaats van over te fitten op specifieke promptformuleringen. PAFT werkt in twee fasen: eerst wordt een diverse set van betekenisvolle, synthetische kandidaat-prompts geconstrueerd. Vervolgens worden tijdens het fine-tuning prompts willekeurig uit deze set geselecteerd om dynamische trainingsinvoer te creëren. Uitgebreide experimenten met diverse datasets en LLM's tonen aan dat modellen die met PAFT zijn getraind, sterke robuustheid en generalisatie vertonen over een breed scala aan prompts, inclusief onbekende. Deze verbeterde robuustheid verbetert zowel de modelprestaties als de inferentiesnelheid, terwijl de trainingsefficiëntie behouden blijft. Ablatiestudies bevestigen verder de effectiviteit van PAFT.
Recentelijk is er een groeiende interesse ontstaan in het gebruik van grote taalmmodellen (LLMs) om symbolische wereldmodellen te genereren op basis van tekstuele beschrijvingen. Hoewel LLMs uitgebreid zijn onderzocht in de context van wereldmodellering, stuiten eerdere studies op verschillende uitdagingen, waaronder evaluatietoevalligheid, afhankelijkheid van indirecte metrieken en een beperkt domeinbereik. Om deze beperkingen aan te pakken, introduceren we een nieuwe benchmark, Text2World, gebaseerd op de planning domain definition language (PDDL), met honderden diverse domeinen en het gebruik van multi-criteria, uitvoeringsgebaseerde metrieken voor een robuustere evaluatie. We benchmarken huidige LLMs met Text2World en ontdekken dat redeneermodellen die getraind zijn met grootschalige reinforcement learning anderen overtreffen. Echter, zelfs het best presterende model toont nog steeds beperkte mogelijkheden in wereldmodellering. Gebaseerd op deze inzichten onderzoeken we verschillende veelbelovende strategieën om de wereldmodelleringscapaciteiten van LLMs te verbeteren, waaronder test-time scaling, agenttraining en meer. We hopen dat Text2World kan dienen als een cruciale bron, die de basis legt voor toekomstig onderzoek naar het gebruik van LLMs als wereldmodellen. De projectpagina is beschikbaar op https://text-to-world.github.io/.
Transformer-gebaseerde grote taalmodellen (LLMs) tonen indrukwekkende prestaties in het genereren van lange contexten. Het uitbreiden van de contextlengte heeft onevenredig de geheugenvoetafdruk van LLMs tijdens inferentie verschoven naar de key-value cache (KV-cache). In dit artikel stellen we HEADINFER voor, dat de KV-cache uitbesteedt aan het CPU-RAM terwijl het vermijdt om de KV-cache volledig op te slaan voor enige transformer-laag op de GPU. HEADINFER maakt gebruik van een fijnmazige, head-wise uitbestedingsstrategie, waarbij alleen selectieve aandacht heads KV-cache op de GPU wordt behouden terwijl de aandachtoutput dynamisch wordt berekend. Door middel van roofline-analyse tonen we aan dat HEADINFER de rekenkundige efficiëntie behoudt terwijl het de geheugenvoetafdruk aanzienlijk vermindert. We evalueren HEADINFER op het Llama-3-8B-model met een sequentie van 1 miljoen tokens, waarbij de GPU-geheugenvoetafdruk van de KV-cache wordt teruggebracht van 128 GB naar 1 GB en het totale GPU-geheugengebruik van 207 GB naar 17 GB, wat een reductie van 92% oplevert in vergelijking met BF16 baseline-inferentie. Opmerkelijk is dat HEADINFER inferentie met 4 miljoen tokens mogelijk maakt met een 8B-model op een enkele consumenten-GPU met 24GB geheugen (bijv. NVIDIA RTX 4090) zonder benaderingsmethoden.
We stellen MUltiway Dynamic Dense (MUDD) connecties voor, een eenvoudige maar effectieve methode om de beperkingen van residuconnecties aan te pakken en de informatieoverdracht tussen lagen in Transformers te verbeteren. In tegenstelling tot bestaande dense connectiebenaderingen met statische en gedeelde verbindingsgewichten, genereert MUDD verbindingsgewichten dynamisch, afhankelijk van de verborgen toestanden op elke sequentiepositie en voor elke ontkoppelde invoerstroom (de query, key, value of residu) van een Transformer-blok. MUDD-connecties kunnen naadloos worden geïntegreerd in elke Transformer-architectuur om MUDDFormer te creëren. Uitgebreide experimenten tonen aan dat MUDDFormer Transformers aanzienlijk overtreft in verschillende modelarchitecturen en schalen bij taalmodelering, waarbij het de prestaties bereikt van Transformers die zijn getraind met 1,8X-2,4X rekenkracht. Opmerkelijk is dat MUDDPythia-2.8B Pythia-6.9B evenaart in pretraining ppl en downstream taken en zelfs Pythia-12B benadert in five-shot instellingen, terwijl slechts 0,23% parameters en 0,4% rekenkracht worden toegevoegd. Code in JAX en PyTorch en vooraf getrainde modellen zijn beschikbaar op https://github.com/Caiyun-AI/MUDDFormer.
We presenteren HealthGPT, een krachtig Medisch Groot Visueel-Taalmodel (Med-LVLM) dat medisch visueel begrip en generatiecapaciteiten integreert binnen een uniform autoregressief paradigma. Onze bootstrapping-filosofie is om heterogeen begrip en generatiekennis geleidelijk aan te passen aan vooraf getrainde grote taalmodellen (LLMs). Dit wordt bereikt door een nieuwe heterogene low-rank adaptatie (H-LoRA) techniek, die wordt aangevuld met een op maat gemaakte hiërarchische visuele perceptiebenadering en een drietraps leerstrategie. Om HealthGPT effectief te trainen, ontwikkelen we een uitgebreide medisch domeinspecifieke dataset voor begrip en generatie genaamd VL-Health. Experimentele resultaten tonen uitzonderlijke prestaties en schaalbaarheid van HealthGPT in medisch visuele geïntegreerde taken. Ons project is toegankelijk op https://github.com/DCDmllm/HealthGPT.
Het verbeteren van de netwerkarchitectuur van het YOLO-framework is al lang cruciaal, maar heeft zich gericht op CNN-gebaseerde verbeteringen ondanks de bewezen superioriteit van aandachtmechanismen in modelleringscapaciteiten. Dit komt omdat op aandacht gebaseerde modellen de snelheid van CNN-gebaseerde modellen niet kunnen evenaren. Dit artikel stelt een op aandacht gericht YOLO-framework voor, namelijk YOLOv12, dat de snelheid van eerdere CNN-gebaseerde modellen evenaart terwijl het de prestatievoordelen van aandachtmechanismen benut. YOLOv12 overtreft alle populaire real-time objectdetectoren in nauwkeurigheid met een competitieve snelheid. YOLOv12-N behaalt bijvoorbeeld 40,6% mAP met een inferentielatentie van 1,64 ms op een T4 GPU, wat geavanceerde YOLOv10-N / YOLOv11-N overtreft met 2,1%/1,2% mAP bij een vergelijkbare snelheid. Dit voordeel strekt zich uit tot andere modelschalen. YOLOv12 overtreft ook end-to-end real-time detectoren die DETR verbeteren, zoals RT-DETR / RT-DETRv2: YOLOv12-S verslaat RT-DETR-R18 / RT-DETRv2-R18 terwijl het 42% sneller draait, slechts 36% van de berekeningen en 45% van de parameters gebruikt. Meer vergelijkingen zijn te zien in Figuur 1.
Gedistribueerde optimalisatiemethoden zoals DiLoCo zijn effectief gebleken bij het trainen van zeer grote modellen over meerdere gedistribueerde werkers, zoals datacenters. Deze methoden splitsen updates op in twee delen: een interne optimalisatiefase, waarin de werkers onafhankelijk meerdere optimalisatiestappen uitvoeren op hun eigen lokale data, en een externe optimalisatiestap, waarin de interne updates worden gesynchroniseerd. Hoewel dergelijke benaderingen aanzienlijk minder communicatie vereisen dan standaard data-parallelle training, kan zelfs de beperkte communicatiebehoefte van deze methoden in omgevingen waar de werkers datacenters zijn, aanzienlijke vertragingen veroorzaken vanwege de benodigde blokkering bij elke externe optimalisatiestap. In dit artikel onderzoeken we technieken om dit probleem te verlichten door communicatie en berekeningen te overlappen op een manier die ervoor zorgt dat de externe optimalisatiestap volledig overlapt met de interne optimalisatiefase. We tonen aan dat een specifieke variant, genaamd 'eager updates', competitieve prestaties biedt ten opzichte van standaard DiLoCo in omgevingen met een lage bandbreedte tussen werkers.
We presenteren een nieuwe redeneeraanpak genaamd Flow-of-Options (FoO), ontworpen om intrinsieke biases in Large Language Models (LLMs) aan te pakken. FoO stelt LLMs in staat om systematisch een diverse reeks mogelijkheden in hun redenering te verkennen, zoals gedemonstreerd door een FoO-gebaseerd agentisch systeem voor het autonoom oplossen van Machine Learning-taken (AutoML). Ons framework overtreft state-of-the-art baselines, met verbeteringen van 38,2% - 69,2% op standaard data science-taken en 37,4% - 47,9% op therapeutische chemie-taken. Met een totale operationele kostprijs van minder dan $1 per taak, is ons framework goed geschikt voor kostenbewuste toepassingen. Naast classificatie en regressie, illustreren we de bredere toepasbaarheid van ons FoO-gebaseerde agentische systeem op taken zoals reinforcement learning en beeldgeneratie. Ons framework biedt significante verbeteringen ten opzichte van de huidige state-of-the-art agentische systemen voor AutoML, dankzij de voordelen van FoO in het afdwingen van diversiteit in LLM-oplossingen door middel van gecomprimeerde, verklaarbare representaties die ook langetermijngeheugen ondersteunen wanneer gecombineerd met case-based reasoning.
De snelle ontwikkeling van grote redeneermodellen, zoals OpenAI-o3 en DeepSeek-R1, heeft geleid tot aanzienlijke verbeteringen in complex redeneren vergeleken met niet-redenerende grote taalmmodellen (LLMs). Hun verbeterde capaciteiten, gecombineerd met de open-source toegang tot modellen zoals DeepSeek-R1, roepen echter ernstige veiligheidszorgen op, met name wat betreft hun potentieel voor misbruik. In dit werk presenteren we een uitgebreide veiligheidsbeoordeling van deze redeneermodellen, waarbij we gebruikmaken van gevestigde veiligheidsbenchmarks om hun naleving van veiligheidsvoorschriften te evalueren. Daarnaast onderzoeken we hun vatbaarheid voor adversariële aanvallen, zoals jailbreaking en promptinjectie, om hun robuustheid in real-world toepassingen te beoordelen. Door onze veelzijdige analyse komen we tot vier belangrijke bevindingen: (1) Er is een aanzienlijk veiligheidsgat tussen de open-source R1-modellen en het o3-mini-model, zowel op het gebied van veiligheidsbenchmarks als aanvallen, wat suggereert dat meer veiligheidsinspanningen voor R1 nodig zijn. (2) Het gedistilleerde redeneermodel vertoont een slechtere veiligheidsprestatie vergeleken met de veiligheidsafgestemde basismodellen. (3) Hoe sterker het redeneervermogen van het model, hoe groter de potentiële schade die het kan veroorzaken bij het beantwoorden van onveilige vragen. (4) Het denkproces in R1-modellen vormt grotere veiligheidszorgen dan hun uiteindelijke antwoorden. Onze studie biedt inzichten in de veiligheidsimplicaties van redeneermodellen en benadrukt de noodzaak van verdere vooruitgang in de veiligheid van R1-modellen om het gat te dichten.
Foundation models die vooraf zijn getraind op enorme, ongelabelde datasets hebben een revolutie teweeggebracht in natuurlijke taalverwerking en computervisie, waarbij ze opmerkelijke generalisatiecapaciteiten vertonen, wat het belang van voorafgaande training benadrukt. Toch hebben inspanningen in de robotica moeite gehad om vergelijkbaar succes te behalen, beperkt door de noodzaak van kostbare robotannotaties of het ontbreken van representaties die de fysieke wereld effectief modelleren. In dit artikel introduceren we ARM4R, een Auto-regressief Robotmodel dat gebruikmaakt van laagniveau 4D-representaties die zijn geleerd van menselijke videodata om een beter vooraf getraind robotmodel te creëren. Specifiek richten we ons op het gebruik van 3D-puntvolgrepresentaties uit video's die zijn afgeleid door 2D-representaties naar 3D-ruimte te tillen via monoculaire diepteschatting over tijd. Deze 4D-representaties behouden een gedeelde geometrische structuur tussen de punten en robotstatusrepresentaties tot op een lineaire transformatie, wat efficiënte transfer learning van menselijke videodata naar laagniveau robotbesturing mogelijk maakt. Onze experimenten tonen aan dat ARM4R efficiënt kan overstappen van menselijke videodata naar robotica en consequent de prestaties verbetert bij taken in verschillende robotomgevingen en configuraties.
LLM-as-a-Judge, dat keten-van-gedachte (CoT) oordelen genereert, is een veelgebruikte methode voor automatische evaluatie geworden. De betrouwbaarheid ervan wordt echter aangetast doordat de CoT-redenering niet in staat is om uitgebreide en diepere details vast te leggen, wat vaak leidt tot onvolledige resultaten. Bestaande methoden zijn voornamelijk gebaseerd op meerderheidsstemming of criteria-uitbreiding, wat onvoldoende is om de beperkingen van CoT aan te pakken. Wij stellen Crowd-based Comparative Evaluation voor, waarbij aanvullende crowdreacties worden geïntroduceerd om te vergelijken met de kandidaatreacties, waardoor diepere en meer uitgebreide details binnen de kandidaatreacties worden blootgelegd. Dit proces leidt LLM-as-a-Judge effectief naar een gedetailleerder CoT-oordeel. Uitgebreide experimenten tonen aan dat onze aanpak de betrouwbaarheid van de evaluatie verbetert, met een gemiddelde nauwkeurigheidswinst van 6,7% over vijf benchmarks. Bovendien produceert onze methode CoTs van hogere kwaliteit die judge-distillatie vergemakkelijken en superieure prestaties vertonen bij rejection sampling voor supervised fine-tuning (SFT), ook wel crowd rejection sampling genoemd, waardoor efficiëntere SFT mogelijk wordt. Onze analyse bevestigt dat de door ons gegenereerde CoTs uitgebreider en van hogere kwaliteit zijn, en dat de evaluatienauwkeurigheid verbetert naarmate de inferentieschaal toeneemt.
Grote Taalmodellen (LLMs) hebben opmerkelijke successen geboekt in diverse taken zoals natuurlijke taalverwerking, tekstsamenvatting en machinaal vertalen. Hun algemene aard beperkt echter vaak hun effectiviteit in domeinspecifieke toepassingen die gespecialiseerde kennis vereisen, zoals gezondheidszorg, scheikunde of juridische analyse. Om dit aan te pakken, hebben onderzoekers diverse methoden verkend om LLMs te versterken door domeinspecifieke kennis te integreren. In dit overzicht bieden we een uitgebreid overzicht van deze methoden, die we categoriseren in vier belangrijke benaderingen: dynamische kennisinjectie, statische kennisinbedding, modulaire adapters en promptoptimalisatie. Elke benadering biedt unieke mechanismen om LLMs uit te rusten met domeinkennis, waarbij een balans wordt gezocht tussen flexibiliteit, schaalbaarheid en efficiëntie. We bespreken hoe deze methoden LLMs in staat stellen gespecialiseerde taken aan te pakken, vergelijken hun voor- en nadelen, evalueren domeinspecifieke LLMs tegenover algemene LLMs, en belichten de uitdagingen en kansen in dit opkomende veld. Voor wie zich verder wil verdiepen in dit gebied, vatten we ook de veelgebruikte datasets en benchmarks samen. Om onderzoekers op de hoogte te houden van de nieuwste studies, onderhouden we een open-source repository op: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, gewijd aan het documenteren van onderzoek op het gebied van gespecialiseerde LLMs.
Embeddingmodellen spelen een cruciale rol bij het representeren en ophalen van informatie in diverse NLP-toepassingen. Recente vooruitgang in grote taalmmodellen (LLM's) heeft de prestaties van embeddingmodellen verder verbeterd. Hoewel deze modellen vaak worden getoetst op algemene datasets, vereisen real-world toepassingen domeinspecifieke evaluatie. In dit werk introduceren we de Finance Massive Text Embedding Benchmark (FinMTEB), een gespecialiseerd tegenhanger van MTEB ontworpen voor het financiële domein. FinMTEB omvat 64 domeinspecifieke embeddingdatasets voor het financiële domein, verdeeld over 7 taken die diverse teksttypes in zowel Chinees als Engels bestrijken, zoals financiële nieuwsartikelen, jaarverslagen van bedrijven, ESG-rapporten, regelgevingsdocumenten en transcripties van winstpresentaties. We ontwikkelen ook een financieel aangepast model, FinPersona-E5, met behulp van een persona-gebaseerde synthetische datamethode om diverse financiële embeddingtaken voor training te dekken. Door uitgebreide evaluatie van 15 embeddingmodellen, waaronder FinPersona-E5, tonen we drie belangrijke bevindingen: (1) prestaties op algemene benchmarks vertonen een beperkte correlatie met financiële domeintaken; (2) domeinaangepaste modellen presteren consistent beter dan hun algemene tegenhangers; en (3) verrassend genoeg presteert een eenvoudige Bag-of-Words (BoW)-aanpak beter dan geavanceerde dense embeddings in financiële Semantic Textual Similarity (STS)-taken, wat de huidige beperkingen in dense embeddingtechnieken benadrukt. Ons werk stelt een robuust evaluatiekader vast voor financiële NLP-toepassingen en biedt cruciale inzichten voor de ontwikkeling van domeinspecifieke embeddingmodellen.
De snelle vooruitgang van perovskietzonnecellen (PSCs) heeft geleid tot een exponentiële groei in onderzoekspublicaties, wat een dringende behoefte creëert aan efficiënte kennisbeheer- en redeneersystemen op dit gebied. Wij presenteren een uitgebreid kennisversterkt systeem voor PSCs dat drie belangrijke componenten integreert. Ten eerste ontwikkelen we Perovskite-KG, een domeinspecifieke kennisgrafiek opgebouwd uit 1.517 onderzoeksartikelen, met 23.789 entiteiten en 22.272 relaties. Ten tweede creëren we twee complementaire datasets: Perovskite-Chat, bestaande uit 55.101 hoogwaardige vraag-antwoordparen gegenereerd via een innovatief multi-agent raamwerk, en Perovskite-Reasoning, met 2.217 zorgvuldig samengestelde materiaalwetenschappelijke problemen. Ten derde introduceren we twee gespecialiseerde grote taalmodelen: Perovskite-Chat-LLM voor domeinspecifieke kennisondersteuning en Perovskite-Reasoning-LLM voor wetenschappelijke redeneertaken. Experimentele resultaten tonen aan dat ons systeem aanzienlijk beter presteert dan bestaande modellen in zowel domeinspecifieke kennisretrieval als wetenschappelijke redeneertaken, en onderzoekers effectieve tools biedt voor literatuuronderzoek, experimenteel ontwerp en complexe probleemoplossing in PSC-onderzoek.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij een reeks tekstgeneratietaken. LLMs hebben echter nog steeds moeite met problemen die multi-staps besluitvorming en omgevingsfeedback vereisen, zoals online winkelen, wetenschappelijk redeneren en wiskundig probleemoplossen. In tegenstelling tot pure tekstdata is het verzamelen van grootschalige besluitvormingsdata uitdagend. Bovendien zijn veel krachtige LLMs alleen toegankelijk via API's, wat het finetunen voor agenttaken belemmert vanwege kosten en complexiteit. Om de beperkingen van LLM-agents aan te pakken, stellen we een framework voor dat automatisch een beloningsmodel kan leren uit de omgeving zonder menselijke annotaties. Dit model kan worden gebruikt om de actietrajecten van LLM-agents te evalueren en heuristieken te bieden voor taakplanning. Specifiek omvat onze aanpak het inzetten van één LLM-gebaseerde agent om willekeurig door een omgeving te navigeren, waardoor diverse actietrajecten worden gegenereerd. Vervolgens wordt een aparte LLM gebruikt om een taakintentie toe te wijzen en een negatieve reactie samen te stellen naast de correcte reactie voor elk traject. Deze triplets (taakintentie, positieve reactie en negatieve reactie) worden vervolgens gebruikt als trainingsdata om een beloningsmodel te optimaliseren dat actietrajecten kan scoren. De effectiviteit en generaliseerbaarheid van ons framework worden aangetoond door evaluaties uitgevoerd op verschillende agentbenchmarks. Concluderend vertegenwoordigt ons voorgestelde framework een significante vooruitgang in het verbeteren van de besluitvormingscapaciteiten van LLM-agents. Door het automatisch leren van beloningsmodellen overkomen we de uitdagingen van dataschaarste en API-beperkingen, wat mogelijk een revolutie teweegbrengt in de toepassing van LLMs in complexe en interactieve omgevingen. Dit onderzoek opent de weg voor meer geavanceerde AI-agents die in staat zijn een breed scala aan real-world problemen aan te pakken die multi-staps besluitvorming vereisen.
Hoewel meertalige taalmodelen zoals XLM-R vooruitgang hebben geboekt op het gebied van meertaligheid in NLP, presteren ze nog steeds slecht in extreem laag-resource talen. Deze situatie wordt verergerd door het feit dat moderne grote taalmodelen zoals LLaMA en Qwen veel minder talen ondersteunen dan XLM-R, waardoor tekstgeneratiemodellen voor veel talen in de wereld niet bestaan. Om deze uitdaging aan te pakken, stellen we een nieuw raamwerk voor voor het aanpassen van meertalige encoders aan tekstgeneratie in extreem laag-resource talen. Door de gewichten tussen de encoder en de decoder te hergebruiken, stelt ons raamwerk het model in staat om gebruik te maken van de geleerde semantische ruimte van de encoder, wat efficiënt leren en effectieve generalisatie in laag-resource talen mogelijk maakt. Door dit raamwerk toe te passen op vier Chinese minderheidstalen, presenteren we XLM-SWCM en demonstreren we de superieure prestaties op verschillende downstream taken, zelfs in vergelijking met veel grotere modellen.
Tijdreeksanalyse heeft een inspirerende ontwikkeling doorgemaakt, van traditionele autoregressieve modellen, via deep learning-modellen, tot recente Transformers en Large Language Models (LLMs). Er zijn ook inspanningen geleverd om vision-modellen te benutten voor tijdreeksanalyse, maar deze zijn minder zichtbaar voor de gemeenschap vanwege het overheersende onderzoek naar sequentiemodellering in dit domein. Echter, het verschil tussen continue tijdreeksen en de discrete tokenruimte van LLMs, evenals de uitdagingen bij het expliciet modelleren van de correlaties tussen variabelen in multivariate tijdreeksen, hebben een deel van de onderzoeksaandacht verlegd naar de even succesvolle Large Vision Models (LVMs) en Vision Language Models (VLMs). Om de leemte in de bestaande literatuur op te vullen, bespreekt dit overzicht de voordelen van vision-modellen ten opzichte van LLMs in tijdreeksanalyse. Het biedt een uitgebreid en diepgaand overzicht van de bestaande methoden, met een dubbele taxonomie die de belangrijkste onderzoeksvragen beantwoordt, waaronder hoe tijdreeksen als afbeeldingen kunnen worden gecodeerd en hoe de gevisualiseerde tijdreeksen kunnen worden gemodelleerd voor verschillende taken. Daarnaast gaan we in op de uitdagingen in de pre- en post-processing stappen die bij dit framework betrokken zijn en schetsen we toekomstige richtingen om tijdreeksanalyse met vision-modellen verder te bevorderen.