Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Seed1.5-VL, een vision-language foundation model ontworpen om algemene multimodale begrips- en redeneervaardigheden te bevorderen. Seed1.5-VL bestaat uit een vision encoder met 532 miljoen parameters en een Mixture-of-Experts (MoE) LLM met 20 miljard actieve parameters. Ondanks de relatief compacte architectuur levert het sterke prestaties op een breed scala aan publieke VLM-benchmarks en interne evaluatiesuites, waarbij het state-of-the-art prestaties behaalt op 38 van de 60 publieke benchmarks. Bovendien overtreft Seed1.5-VL toonaangevende multimodale systemen, waaronder OpenAI CUA en Claude 3.7, in agent-gerichte taken zoals GUI-besturing en gameplay. Naast visueel en video-begrip toont het ook sterke redeneervaardigheden, waardoor het bijzonder effectief is voor multimodale redeneeruitdagingen zoals visuele puzzels. Wij geloven dat deze mogelijkheden bredere toepassingen over diverse taken zullen mogelijk maken. In dit rapport bieden we voornamelijk een uitgebreide evaluatie van onze ervaringen met het bouwen van Seed1.5-VL, met betrekking tot modelontwerp, dataconstructie en training in verschillende fasen, in de hoop dat dit rapport verder onderzoek zal inspireren. Seed1.5-VL is nu toegankelijk op https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428).
We presenteren MiMo-7B, een groot taalmodel ontwikkeld voor redeneertaken, met optimalisaties in zowel de voor- als na-trainingsfasen. Tijdens de voorbereidende training versterken we de gegevensverwerkingspijplijn en gebruiken we een drietraps strategie voor het mengen van gegevens om het redeneervermogen van het basismodel te versterken. MiMo-7B-Base is voorgetraind op 25 biljoen tokens, met een aanvullende Multi-Token Voorspellingsdoelstelling voor verbeterde prestaties en versnelde inferentiesnelheid. Tijdens de na-training hebben we een dataset samengesteld van 130K verifieerbare wiskundige en programmeerproblemen voor reinforcement learning, waarbij we een testmoeilijkheidsgestuurd code-beloningsschema integreren om problemen met schaarse beloningen te verlichten en strategische gegevensherbemonstering toepassen om de training te stabiliseren. Uitgebreide evaluaties tonen aan dat MiMo-7B-Base een uitzonderlijk redeneervermogen heeft en zelfs veel grotere 32B-modellen overtreft. Het uiteindelijke RL-afgestemde model, MiMo-7B-RL, behaalt superieure prestaties op wiskundige, code- en algemene redeneertaken en overtreft de prestaties van OpenAI o1-mini. De modelcheckpoints zijn beschikbaar op https://github.com/xiaomimimo/MiMo.
Hoewel generatieve kunstmatige intelligentie aanzienlijke vooruitgang heeft geboekt op het gebied van tekst, beeld, audio en video, blijft 3D-generatie relatief onderontwikkeld vanwege fundamentele uitdagingen zoals dataschaarste, algoritmische beperkingen en ecosysteemfragmentatie. Daarom presenteren wij Step1X-3D, een open framework dat deze uitdagingen aanpakt door: (1) een rigoureus datacuratiepipeline die meer dan 5M assets verwerkt om een dataset van 2M hoogwaardige assets te creëren met gestandaardiseerde geometrische en textuureigenschappen; (2) een tweestaps 3D-native architectuur die een hybride VAE-DiT geometriegenerator combineert met een op diffusie gebaseerde textuursynthesemodule; en (3) de volledige open-source release van modellen, trainingscode en aanpassingsmodules. Voor geometriegeneratie produceert de hybride VAE-DiT-component TSDF-representaties door gebruik te maken van perceiver-gebaseerde latente codering met scherpe randbemonstering voor detailbehoud. De op diffusie gebaseerde textuursynthesemodule zorgt vervolgens voor consistentie tussen verschillende aanzichten door geometrische conditionering en latent-ruimtesynchronisatie. Benchmarkresultaten tonen state-of-the-art prestaties die bestaande open-source methoden overtreffen, terwijl ook concurrerende kwaliteit wordt bereikt met propriëtaire oplossingen. Opmerkelijk is dat het framework uniek de 2D- en 3D-generatieparadigma's verbindt door directe overdracht van 2D-controletechnieken (bijv. LoRA) naar 3D-synthese te ondersteunen. Door tegelijkertijd de datakwaliteit, algoritmische nauwkeurigheid en reproduceerbaarheid te verbeteren, streeft Step1X-3D ernaar nieuwe standaarden te vestigen voor open onderzoek in beheersbare 3D-assetgeneratie.
Grote Redeneermodellen (LRMs) hebben het vermogen om zichzelf te corrigeren, zelfs wanneer ze fouten maken in hun redeneerpaden. Uit ons onderzoek blijkt echter dat wanneer het redeneerproces begint met een kort maar slecht begin, het voor het model moeilijk wordt om te herstellen. We verwijzen naar dit fenomeen als de "Prefix Dominance Trap". Geïnspireerd door psychologische bevindingen dat interactie met peers zelfcorrectie kan bevorderen zonder negatieve gevolgen voor reeds accurate individuen, stellen we **Learning from Peers** (LeaP) voor om dit fenomeen aan te pakken. Specifiek samenvat elk redeneerpad zijn tussentijdse redenering en deelt deze met anderen via een routeringsmechanisme, waardoor paden tijdens de inferentie inzichten van peers kunnen integreren. We merken echter op dat kleinere modellen soms moeite hebben om samenvattings- en reflectie-instructies effectief op te volgen. Om dit aan te pakken, fine-tunen we ze in onze **LeaP-T** modelreeks. Experimenten op AIME 2024, AIME 2025, AIMO 2025 en GPQA Diamond tonen aan dat LeaP aanzienlijke verbeteringen biedt. QwQ-32B met LeaP behaalt bijvoorbeeld bijna 5 absolute punten hoger dan de baseline gemiddeld, en overtreft DeepSeek-R1-671B op drie wiskundige benchmarks met een gemiddelde winst van 3,3 punten. Opmerkelijk is dat onze gefinetunede LeaP-T-7B de prestaties van DeepSeek-R1-Distill-Qwen-14B op AIME 2024 evenaart. Diepgaande analyse onthult de robuuste foutcorrectie van LeaP door tijdige inzichten van peers, wat sterke fouttolerantie en het omgaan met verschillende taakmoeilijkheden aantoont. LeaP markeert een mijlpaal door LRMs in staat te stellen samen te werken tijdens het redeneren. Onze code, datasets en modellen zijn beschikbaar op https://learning-from-peers.github.io/.
Recente vooruitgang in continue generatieve modellen, waaronder multi-stapbenaderingen zoals diffusie en flow-matching (meestal 8-1000 steppen vereisend) en few-stepmethoden zoals consistentiemodellen (meestal 1-8 steppen), heeft indrukwekkende generatieve prestaties laten zien. Bestaand werk behandelt deze benaderingen echter vaak als afzonderlijke paradigma's, wat resulteert in aparte trainings- en samplingmethodologieën. Wij introduceren een geïntegreerd raamwerk voor het trainen, samplen en analyseren van deze modellen. Onze implementatie, de Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), behaalt state-of-the-art (SOTA) prestaties. Zo bereikt UCGM-T op ImageNet 256x256 met een 675M diffusietransformer een multi-stapmodel met een FID van 1,30 in 20 steppen en een few-stepmodel met een FID van 1,42 in slechts 2 steppen. Daarnaast verbetert het toepassen van UCGM-S op een voorgetraind model (voorheen 1,26 FID bij 250 steppen) de prestaties tot 1,06 FID in slechts 40 steppen. De code is beschikbaar op: https://github.com/LINs-lab/UCGM.
Instructie-gebaseerde Large Language Models (LLMs) hebben hun effectiviteit bewezen in tal van few-shot of zero-shot Natural Language Processing (NLP)-taken. Het creëren van door mensen geannoteerde instructiedata is echter tijdrovend, kostbaar en vaak beperkt in hoeveelheid en taakdiversiteit. Eerdere onderzoeksinspanningen hebben geprobeerd deze uitdaging aan te pakken door frameworks voor te stellen die in staat zijn om op een semi-geautomatiseerde en taakagnostische manier instructies te genereren, rechtstreeks vanuit het model zelf. Veel van deze inspanningen hebben vertrouwd op grote API-only parametergebaseerde modellen zoals GPT-3.5 (175B), die duur zijn en onderhevig aan limieten op het aantal queries. Dit artikel onderzoekt de prestaties van drie open-source kleine LLMs, zoals LLaMA 2-7B, LLaMA 2-13B en Mistral 7B, met behulp van een semi-geautomatiseerd framework, waardoor de menselijke interventie, inspanning en kosten die nodig zijn om een instructiedataset te genereren voor het finetunen van LLMs worden verminderd. Bovendien tonen we aan dat het integreren van een Reinforcement Learning (RL)-gebaseerd trainingsalgoritme in dit LLM-gebaseerde framework tot verdere verbeteringen leidt. Onze evaluatie van de dataset laat zien dat deze RL-gebaseerde frameworks een aanzienlijke verbetering bereiken in 63-66% van de taken in vergelijking met eerdere benaderingen.
Recente doorbraken in generatieve modellen—met name diffusiemodellen en gerechtificeerde stromen—hebben een revolutie teweeggebracht in het creëren van visuele inhoud, maar het afstemmen van modeluitkomsten op menselijke voorkeuren blijft een kritieke uitdaging. Bestaande methoden voor visuele generatie op basis van reinforcement learning (RL) kampen met belangrijke beperkingen: incompatibiliteit met moderne samplingparadigma's gebaseerd op Ordinary Differential Equations (ODE's), instabiliteit bij grootschalige training, en een gebrek aan validatie voor videogeneratie. Dit artikel introduceert DanceGRPO, het eerste geïntegreerde framework dat Group Relative Policy Optimization (GRPO) aanpast aan visuele generatieparadigma's, waardoor één geïntegreerd RL-algoritme wordt vrijgegeven over twee generatieve paradigma's (diffusiemodellen en gerechtificeerde stromen), drie taken (tekst-naar-beeld, tekst-naar-video, beeld-naar-video), vier basis modellen (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), en vijf beloningsmodellen (beeld/video-esthetiek, tekst-beeld-uitlijning, videobewegingskwaliteit, en binaire beloning). Voor zover wij weten, is DanceGRPO het eerste RL-gebaseerde geïntegreerde framework dat naadloos kan worden aangepast aan diverse generatieve paradigma's, taken, basis modellen, en beloningsmodellen. DanceGRPO toont consistente en aanzienlijke verbeteringen, die de referentiemodellen met tot wel 181% overtreffen op benchmarks zoals HPS-v2.1, CLIP Score, VideoAlign, en GenEval. Opmerkelijk is dat DanceGRPO niet alleen beleidsoptimalisatie kan stabiliseren voor complexe videogeneratie, maar ook het generatieve beleid in staat stelt om denoising-trajectories beter vast te leggen voor Best-of-N inferentieschaling en te leren van schaarse binaire feedback. Onze resultaten positioneren DanceGRPO als een robuuste en veelzijdige oplossing voor het schalen van Reinforcement Learning from Human Feedback (RLHF) taken in visuele generatie, en bieden nieuwe inzichten in het harmoniseren van reinforcement learning en visuele synthese. De code zal worden vrijgegeven.
Wij stellen Skywork-VL Reward voor, een multimodaal beloningsmodel dat beloningssignalen biedt voor zowel multimodale begrips- als redeneertaken. Onze technische aanpak bestaat uit twee belangrijke componenten: Ten eerste construeren we een grootschalige multimodale voorkeursdataset die een breed scala aan taken en scenario's omvat, met reacties verzameld van zowel standaard visie-taalmodellen (VLMs) als geavanceerde VLM-redeneerders. Ten tweede ontwerpen we een beloningsmodelarchitectuur gebaseerd op Qwen2.5-VL-7B-Instruct, waarbij we een beloningskop integreren en een meerfasige fine-tuning toepassen met behulp van paarsgewijze rangschikkingsverlies op paarsgewijze voorkeursdata. Experimentele evaluaties tonen aan dat Skywork-VL Reward state-of-the-art resultaten behaalt op de multimodale VL-RewardBench en competitieve prestaties vertoont op de tekstuele RewardBench-benchmark. Bovendien blijkt voorkeursdata die is geconstrueerd op basis van onze Skywork-VL Reward zeer effectief te zijn voor het trainen van Mixed Preference Optimization (MPO), wat leidt tot aanzienlijke verbeteringen in multimodale redeneervaardigheden. Onze resultaten onderstrepen Skywork-VL Reward als een belangrijke vooruitgang richting algemene, betrouwbare beloningsmodellen voor multimodale afstemming. Ons model is openbaar vrijgegeven om transparantie en reproduceerbaarheid te bevorderen.
Recentelijk is er een groeiende interesse ontstaan in het verzamelen van trainingsdata die intensief redeneren vereist, om het complexe redeneervermogen van grote taalmodelen (LLMs) te verbeteren. Eerdere benaderingen vertrouwen doorgaans op begeleide classificatiemodellen om dergelijke data te identificeren, wat labeling door mensen of LLMs vereist en vaak domeinspecifieke vooroordelen introduceert. Gezien de cruciale rol van aandachtskoppen (attention heads) bij in-context redeneren, stellen we AttentionInfluence voor, een eenvoudige maar effectieve, trainingsvrije methode zonder begeleidingssignaal. Onze aanpak stelt een klein voorgetraind taalmodel in staat om als een sterke dataselector te fungeren door middel van een eenvoudige maskeringsoperatie van aandachtskoppen. Specifiek identificeren we retrieval heads en berekenen we het verschil in verlies bij het maskeren van deze koppen. We passen AttentionInfluence toe op een dicht model met 1,3 miljard parameters om dataselectie uit te voeren op het SmolLM-corpus van 241 miljard tokens, en mengen het SmolLM-corpus met de geselecteerde subset van 73 miljard tokens om een dicht model met 7 miljard parameters voor te trainen met 1 biljoen trainings-tokens en WSD-leersnelheidsplanning. Onze experimentele resultaten laten aanzienlijke verbeteringen zien, variërend van 1,4 tot 3,5 procentpunt, over verschillende kennisintensieve en redeneerzware benchmarks (zoals MMLU, MMLU-Pro, AGIEval-en, GSM8K en HumanEval). Dit toont een effectieve zwak-naar-sterk schaaleigenschap aan, waarbij kleine modellen de uiteindelijke prestaties van grotere modellen verbeteren—wat een veelbelovende en schaalbare weg biedt voor redeneringsgerichte dataselectie.
Continueel Voor-Trainen (CPT) is een populaire en effectieve methode geworden om krachtige basis modellen toe te passen op specifieke downstream taken. In dit werk onderzoeken we de leer dynamiek gedurende het CPT-proces voor grote taalmodellen. We richten ons specifiek op hoe de prestaties in het algemene en downstream domein evolueren bij elke trainingsstap, waarbij domeinprestaties worden gemeten via validatieverliezen. We hebben geobserveerd dat de CPT-verliescurve fundamenteel de overgang van één curve naar een andere verborgen curve karakteriseert, en kan worden beschreven door de effecten van distributieverschuiving en leerrate-afname te ontkoppelen. We leiden een CPT-schaalwet af die deze twee factoren combineert, waardoor het mogelijk wordt om het verlies te voorspellen bij elke (continue) trainingsstap en over verschillende leerrate schema's (LRS) in CPT. Onze formulering biedt een uitgebreid begrip van verschillende kritische factoren in CPT, waaronder verliespotentieel, piekleerrate, trainingsstappen, replay-ratio, enz. Bovendien kan onze aanpak worden aangepast om trainingshyperparameters af te stemmen op verschillende CPT-doelen, zoals het balanceren van algemene en domeinspecifieke prestaties. Uitgebreide experimenten tonen aan dat onze schaalwet standhoudt over verschillende CPT-datasets en trainingshyperparameters.
LLM-gebaseerde agents hebben groot potentieel getoond in het genereren en beheren van code binnen complexe codebases. In dit artikel introduceren we WebGen-Bench, een nieuwe benchmark die is ontworpen om het vermogen van een LLM-gebaseerde agent te meten om multi-file website-codebases vanaf nul te creëren. Het bevat diverse instructies voor websitegeneratie, ontwikkeld door de gezamenlijke inspanningen van menselijke annotators en GPT-4o. Deze instructies beslaan drie hoofd- en dertien subcategorieën, die bijna alle belangrijke soorten webapplicaties omvatten. Om de kwaliteit van de gegenereerde websites te beoordelen, gebruiken we GPT-4o om testcases te genereren die gericht zijn op elke functionaliteit die in de instructies wordt beschreven, en filteren, passen we deze handmatig aan en organiseren ze om nauwkeurigheid te waarborgen, wat resulteert in 647 testcases. Elke testcase specificeert een handeling die op de website moet worden uitgevoerd en het verwachte resultaat na de handeling. Om het testen te automatiseren en de reproduceerbaarheid te verbeteren, gebruiken we een krachtige webnavigatie-agent om tests uit te voeren op de gegenereerde websites en te bepalen of de waargenomen reacties overeenkomen met de verwachte resultaten. We evalueren drie hoogwaardige code-agent frameworks, Bolt.diy, OpenHands en Aider, met behulp van meerdere propriëtaire en open-source LLM's als engines. De best presterende combinatie, Bolt.diy aangedreven door DeepSeek-R1, behaalt slechts 27,8% nauwkeurigheid op de testcases, wat de uitdagende aard van onze benchmark benadrukt. Daarnaast construeren we WebGen-Instruct, een trainingsset bestaande uit 6.667 websitegeneratie-instructies. Het trainen van Qwen2.5-Coder-32B-Instruct op Bolt.diy-trajecten gegenereerd uit een subset van deze trainingsset resulteert in een nauwkeurigheid van 38,2%, wat de prestaties van het beste propriëtaire model overtreft.
We introduceren INTELLECT-2, de eerste wereldwijd gedistribueerde reinforcement learning (RL) training van een taalmodel met 32 miljard parameters. In tegenstelling tot traditionele gecentraliseerde trainingsinspanningen, traint INTELLECT-2 een redeneermodel met volledig asynchrone RL over een dynamische, heterogene zwerm van rekenkrachtbijdragers zonder toestemming. Om een training met deze unieke infrastructuur mogelijk te maken, hebben we verschillende componenten vanaf nul opgebouwd: we introduceren PRIME-RL, ons trainingsframework dat speciaal is ontworpen voor gedistribueerde asynchrone reinforcement learning, gebaseerd op nieuwe componenten zoals TOPLOC, dat rollouts van niet-vertrouwde inferentiewerkers verifieert, en SHARDCAST, dat efficiënt beleidsgewichten uitzendt van trainingsnodes naar inferentiewerkers. Naast infrastructuurcomponenten stellen we aanpassingen voor aan het standaard GRPO-trainingsrecept en gegevensfiltertechnieken die cruciaal waren om trainingsstabiliteit te bereiken en ervoor te zorgen dat ons model zijn trainingsdoel succesvol leerde, waardoor het QwQ-32B, het state-of-the-art redeneermodel in het 32B-parameterbereik, verbeterde. We maken INTELLECT-2 open source, samen met al onze code en gegevens, in de hoop meer open onderzoek op het gebied van gedecentraliseerde training aan te moedigen en mogelijk te maken.
De conventionele wijsheid suggereert dat autoregressieve modellen worden gebruikt om discrete gegevens te verwerken. Wanneer ze worden toegepast op continue modaliteiten zoals visuele gegevens, neigt Visual AutoRegressive modeling (VAR) meestal naar op kwantisatie gebaseerde benaderingen om de gegevens in een discrete ruimte om te zetten, wat aanzienlijk informatieverlies kan veroorzaken. Om dit probleem aan te pakken, introduceren we een Continuous VAR-framework dat directe visuele autoregressieve generatie mogelijk maakt zonder vectorkwantisatie. De onderliggende theoretische basis bestaat uit strikt juiste scoringsregels, die krachtige statistische tools bieden die kunnen evalueren hoe goed een generatief model de ware verdeling benadert. Binnen dit framework hoeven we alleen maar een strikt juiste score te selecteren en deze als trainingsdoelstelling in te stellen om te optimaliseren. We onderzoeken voornamelijk een klasse van trainingsdoelstellingen gebaseerd op de energyscore, die likelihood-vrij is en daardoor de moeilijkheid overwint om probabilistische voorspellingen te doen in de continue ruimte. Eerdere inspanningen op het gebied van continue autoregressieve generatie, zoals GIVT en diffusieverlies, kunnen ook worden afgeleid uit ons framework met behulp van andere strikt juiste scores. Broncode: https://github.com/shaochenze/EAR.
Retoucheren is een essentiële taak in de nabewerking van ruwe foto's. Generatieve bewerking, geleid door tekst of penseelstreken, biedt gebruikers een nieuw toegankelijk hulpmiddel, maar kan de identiteit van de originele objecten op onaanvaardbare en onvoorspelbare manieren veranderen. Daarentegen worden traditionele procedurele bewerkingen, zoals die vaak worden ondersteund door fotobewerkingsprogramma's (bijv. Gimp, Lightroom), hoewel conservatief, nog steeds geprefereerd door professionals. Helaas vereist professionele kwaliteit retoucheren veel individuele procedurele bewerkingen die voor de meeste beginners uitdagend zijn om te plannen. In dit artikel onderzoeken we of een multimodaal groot taalmodel (MLLM) kan worden geleerd om ruwe foto's te beoordelen, geschikte oplossingen voor te stellen en deze uiteindelijk te realiseren met een gegeven set van vooraf geschreven procedurele beeldbewerkingen. We demonstreren dat MLLMs eerst bewust kunnen worden gemaakt van de onderliggende beeldverwerkingsoperaties, door ze te trainen om speciaal ontworpen visuele puzzels op te lossen. Vervolgens kan zo'n operatiebewuste MLLM zowel bewerkingssequenties plannen als voorstellen. Om de training te vergemakkelijken, synthetiseren we, gegeven een set van door experts bewerkte foto's, een redeneerdataset door procedureel de expertbewerkingen te manipuleren en vervolgens een voorgetraind LLM te gronden op de visuele aanpassingen, om redeneringen te synthetiseren voor finetuning. De voorgestelde retoucheerbewerkingen zijn per constructie begrijpelijk voor de gebruikers, behouden objectdetails en resolutie, en kunnen optioneel worden overschreven. We evalueren onze opzet op een verscheidenheid aan testvoorbeelden en tonen voordelen aan, in termen van uitlegbaarheid en identiteitsbehoud, ten opzichte van bestaande generatieve en andere procedurele alternatieven. Code, data, modellen en aanvullende resultaten zijn te vinden via onze projectwebsite op https://monetgpt.github.io.
Retrieval-augmented generation (RAG) is een veelgebruikte strategie om hallucinaties in Large Language Models (LLMs) te verminderen. Hoewel reinforcement learning (RL) LLMs kan inzetten als zoekagents door hun retrieval-mogelijkheden te activeren, maken bestaande modellen vaak onvoldoende gebruik van hun interne kennis. Dit kan leiden tot overbodige retrievals, potentieel schadelijke kennisconflicten en verhoogde inferentielatentie. Om deze beperkingen aan te pakken, is er dringend behoefte aan een efficiënt en adaptief zoekagent dat optimale retrieval-timing kan bepalen en parametrische (interne) en opgehaalde (externe) kennis op een synergetische manier kan integreren. Dit artikel introduceert de Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA), die zijn eigen kennisgrens kan identificeren en prioriteit geeft aan het gebruik van interne kennis, waarbij alleen wordt teruggegrepen op externe zoekacties wanneer interne kennis als onvoldoende wordt beschouwd. Dit wordt bereikt met behulp van een nieuwe beloningsfunctie die rekening houdt met de kennisgrens en een trainingsdataset die eveneens kennisgrensbewust is. Deze zijn ontworpen voor RL gericht op synergie tussen interne en externe kennis, waarbij het model wordt gestimuleerd om nauwkeurige antwoorden te geven, onnodige retrievals te minimaliseren en gepaste externe zoekacties aan te moedigen wanneer zijn eigen kennis tekortschiet. Evaluaties over meerdere kennisredeneertaken tonen aan dat IKEA baseline-methoden significant overtreft, de retrievalfrequentie aanzienlijk vermindert en robuuste generalisatiecapaciteiten vertoont.
In dit position paper constateren we dat empirische evaluatie in Generatieve AI zich op een kritiek punt bevindt, aangezien traditionele evaluatie- en benchmarkstrategieën uit het domein van Machine Learning niet toereikend zijn om te voldoen aan de behoeften van het evalueren van moderne GenAI-modellen en -systemen. Hiervoor zijn vele redenen, waaronder het feit dat deze modellen doorgaans een bijna onbegrensde input- en outputruimte hebben, meestal geen goed gedefinieerde grondwaarheid als doel hebben, en vaak sterke feedbackloops en voorspellingsafhankelijkheid vertonen op basis van de context van eerdere modeloutputs. Bovenop deze kritieke problemen stellen we dat de kwesties van {\em leakage} en {\em contaminatie} in feite de belangrijkste en moeilijkst aan te pakken problemen zijn bij GenAI-evaluaties. Interessant genoeg heeft het veld van AI-wedstrijden effectieve maatregelen en praktijken ontwikkeld om leakage tegen te gaan, met als doel het tegengaan van fraude door kwaadwillende actoren binnen een wedstrijdomgeving. Dit maakt AI-wedstrijden een bijzonder waardevolle (maar onderbenutte) bron. Het is nu tijd voor het veld om AI-wedstrijden te zien als de gouden standaard voor empirische strengheid in GenAI-evaluatie, en om hun resultaten dienovereenkomstig te waarderen en te benutten.
Sparse Mixture of Experts (MoE)-architecturen zijn naar voren gekomen als een veelbelovende aanpak voor het schalen van Transformer-modellen. Terwijl initiële werken MoE voornamelijk integreerden in feedforward netwerk (FFN)-lagen, hebben recente studies het MoE-paradigma uitgebreid naar aandachtslagen om de modelprestaties te verbeteren. Bestaande op aandacht gebaseerde MoE-lagen vereisen echter gespecialiseerde implementaties en vertonen suboptimale prestaties in vergelijking met hun op FFN gebaseerde tegenhangers. In dit artikel streven we ernaar de MoE-ontwerpen in aandacht- en FFN-lagen te verenigen door een nieuwe herformulering van het aandachtmechanisme te introduceren, waarbij een onderliggende FFN-achtige structuur binnen aandachtmodules wordt onthuld. Onze voorgestelde architectuur, UMoE, bereikt superieure prestaties via op aandacht gebaseerde MoE-lagen, terwijl efficiënte parametersharing tussen FFN- en aandachtcomponenten mogelijk wordt gemaakt.
Retrieval-augmented generation (RAG)-systemen combineren grote taalmmodellen (LLMs) met externe kennisretrieval, waardoor ze zeer effectief zijn voor kennisintensieve taken. Een cruciaal maar vaak onderbelicht onderdeel van deze systemen is de herrangschikker (reranker), die opgehaalde documenten verfijnt om de generatiekwaliteit en uitlegbaarheid te verbeteren. De uitdaging van het selecteren van het optimale aantal documenten (k) blijft onopgelost: te weinig documenten kunnen kritieke informatie weglaten, terwijl te veel documenten ruis en inefficiënties introduceren. Hoewel recente studies LLM-gebaseerde herrangschikkers hebben onderzocht, maken ze vooral gebruik van interne modelkennis en negeren ze de rijke superviserende signalen die LLMs kunnen bieden, zoals het gebruik van responskwaliteit als feedback voor het optimaliseren van herrangschikkingsbeslissingen. In dit artikel stellen we DynamicRAG voor, een nieuw RAG-raamwerk waarin de herrangschikker zowel de volgorde als het aantal opgehaalde documenten dynamisch aanpast op basis van de query. We modelleren de herrangschikker als een agent die wordt geoptimaliseerd via reinforcement learning (RL), waarbij beloningen worden afgeleid van de kwaliteit van de LLM-uitvoer. Over zeven kennisintensieve datasets toont DynamicRAG superieure prestaties en behaalt het state-of-the-art resultaten. Het model, de data en de code zijn beschikbaar op https://github.com/GasolSun36/DynamicRAG.
We introduceren LlamaPIE, de eerste real-time proactieve assistent die is ontworpen om menselijke gesprekken te verbeteren door middel van discrete, beknopte begeleiding die wordt geleverd via hoorbare apparaten. In tegenstelling tot traditionele taalmodelen die expliciete gebruikersaanroep vereisen, opereert deze assistent op de achtergrond en anticipeert hij op gebruikersbehoeften zonder gesprekken te onderbreken. We behandelen verschillende uitdagingen, waaronder het bepalen van het juiste moment om te reageren, het formuleren van beknopte reacties die gesprekken versterken, het benutten van gebruikerskennis voor contextbewuste ondersteuning, en real-time verwerking op het apparaat. Om dit te bereiken, construeren we een semi-synthetische dialoogdataset en stellen we een tweemodelpijplijn voor: een klein model dat beslist wanneer te reageren en een groter model dat de reactie genereert. We evalueren onze aanpak op real-world datasets, waarbij we de effectiviteit aantonen in het bieden van behulpzame, onopvallende ondersteuning. Gebruikersstudies met onze assistent, geïmplementeerd op Apple Silicon M2-hardware, tonen een sterke voorkeur voor de proactieve assistent ten opzichte van zowel een baseline zonder ondersteuning als een reactief model, wat het potentieel van LlamaPie benadrukt om live gesprekken te verbeteren.
Visuomotorisch beleidsleren heeft aanzienlijke vooruitgang geboekt in robotmanipulatie, waarbij recente benaderingen voornamelijk vertrouwen op generatieve modellen om de actieverdeling te modelleren. Deze methoden negeren echter vaak de cruciale koppeling tussen visuele waarneming en actievoorspelling. In dit werk introduceren we Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), een nieuw visuomotorisch leerraamwerk dat expliciet hiërarchische structuren incorporeert om de integratie tussen visuele kenmerken en actiegeneratie te versterken. H^{3}DP bevat 3 niveaus van hiërarchie: (1) dieptegevoelige invoerlaagindeling die RGB-D-waarnemingen organiseert op basis van diepte-informatie; (2) multi-schaal visuele representaties die semantische kenmerken coderen op verschillende niveaus van granulariteit; en (3) een hiërarchisch geconditioneerd diffusieproces dat de generatie van grove tot fijne acties afstemt op overeenkomstige visuele kenmerken. Uitgebreide experimenten tonen aan dat H^{3}DP een gemiddelde relatieve verbetering van +27,5% oplevert ten opzichte van baseline-methoden over 44 simulatietaken en superieure prestaties bereikt in 4 uitdagende bimanuele manipulatietaken in de echte wereld. Projectpagina: https://lyy-iiis.github.io/h3dp/.
Een recente trend in LLM's is de ontwikkeling van recurrente sub-kwadratische modellen die de efficiëntie van lang-context verwerking verbeteren. Wij onderzoeken toonaangevende grote lang-context modellen, met de focus op hoe hun vaste grootte van het recurrente geheugen hun prestaties beïnvloedt. Onze experimenten tonen aan dat, zelfs wanneer deze modellen getraind zijn voor uitgebreide contexten, hun gebruik van lange contexten onderbenut blijft. Specifiek demonstreren we dat een chunk-gebaseerde inferentieprocedure, die alleen het meest relevante deel van de input identificeert en verwerkt, recurrente geheugenfouten kan mitigeren en effectief kan zijn voor veel lang-context taken: Op LongBench verbetert onze methode de algehele prestaties van Falcon3-Mamba-Inst-7B met 14%, Falcon-Mamba-Inst-7B met 28%, RecurrentGemma-IT-9B met 50%, en RWKV6-Finch-7B met 51%. Verrassend genoeg leidt deze eenvoudige aanpak ook tot state-of-the-art resultaten in de uitdagende LongBench v2 benchmark, waarbij het competitieve prestaties laat zien met Transformers van vergelijkbare grootte. Bovendien roepen onze bevindingen vragen op over of recurrente modellen daadwerkelijk lange-afhankelijkheden benutten, aangezien onze single-chunk strategie sterkere prestaties levert - zelfs in taken die vermoedelijk cross-context relaties vereisen.
Naarmate Large Language Models (LLMs) steeds vaker worden toegepast op documentgebaseerde taken – zoals documentensamenvatting, vraagbeantwoording en informatie-extractie – waarbij gebruikerseisen zich richten op het ophalen van informatie uit aangeleverde documenten in plaats van te vertrouwen op de parametrische kennis van het model, is het waarborgen van de betrouwbaarheid en interpreteerbaarheid van deze systemen een kritieke zorg geworden. Een centrale benadering om deze uitdaging aan te pakken is attributie, waarbij de gegenereerde uitvoer wordt teruggeleid naar de brondocumenten. Omdat LLMs echter onnauwkeurige of onprecieze antwoorden kunnen produceren, is het cruciaal om de betrouwbaarheid van deze citaties te beoordelen. Om dit aan te pakken, stelt ons werk twee technieken voor. (1) Een zero-shot benadering die attributie behandelt als een eenvoudige tekstuele entailment-taak. Onze methode met flan-ul2 laat een verbetering zien van 0,27% en 2,4% ten opzichte van de beste baseline van de ID- en OOD-sets van AttributionBench, respectievelijk. (2) We onderzoeken ook de rol van het aandachtmechanisme bij het verbeteren van het attributieproces. Met een kleiner LLM, flan-t5-small, overtreffen de F1-scores de baseline in bijna alle lagen, behalve in laag 4 en lagen 8 tot en met 11.
Hoewel deep learning-modellen een opmerkelijk potentieel hebben getoond in weersvoorspelling, negeren de meeste ervan ofwel de fysica van de onderliggende weersontwikkeling, ofwel de topologie van het aardoppervlak. Gezien deze nadelen ontwikkelen we PASSAT, een nieuw Physics-ASSisted And Topology-informed deep learning-model voor weersvoorspelling. PASSAT schrijft de weersontwikkeling toe aan twee belangrijke factoren: (i) het advectieproces dat kan worden gekarakteriseerd door de advectievergelijking en de Navier-Stokes-vergelijking; (ii) de interactie tussen de aarde en de atmosfeer die moeilijk te modelleren en te berekenen is. PASSAT houdt ook rekening met de topologie van het aardoppervlak, in plaats van het simpelweg als een vlak te behandelen. Met deze overwegingen lost PASSAT numeriek de advectievergelijking en de Navier-Stokes-vergelijking op op het sferische oppervlak, gebruikt het een sferisch grafisch neuraal netwerk om de interactie tussen de aarde en de atmosfeer vast te leggen, en genereert het de initiële snelheidsvelden die cruciaal zijn voor het oplossen van de advectievergelijking vanuit hetzelfde sferische grafische neuraal netwerk. In de 5.625°-resolutie ERA5-dataset presteert PASSAT beter dan zowel de state-of-the-art deep learning-gebaseerde weersvoorspellingsmodellen als het operationele numerieke weersvoorspellingsmodel IFS T42. Code en checkpoint zijn beschikbaar op https://github.com/Yumenomae/PASSAT_5p625.
Het ontwerpen van biologische sequenties die voldoen aan meerdere, vaak tegenstrijdige, functionele en biofysische criteria blijft een centrale uitdaging in biomoleculaire engineering. Hoewel discrete flow matching-modellen recentelijk veelbelovend zijn gebleken voor efficiënte steekproefname in hoogdimensionale sequentieruimten, richten bestaande benaderingen zich slechts op enkele doelstellingen of vereisen ze continue inbeddingen die discrete verdelingen kunnen verstoren. Wij presenteren Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), een algemeen raamwerk om elke vooraf getrainde discrete-time flow matching-generator te sturen naar Pareto-efficiënte afwegingen over meerdere scalaire doelstellingen. Bij elke steekproefstap berekent MOG-DFM een hybride rangrichtingsscore voor kandidaatovergangen en past een adaptief hyperconefilter toe om consistente multi-objectieve voortgang af te dwingen. We hebben ook twee onvoorwaardelijke discrete flow matching-modellen getraind, PepDFM voor diverse peptidegeneratie en EnhancerDFM voor functionele enhancer DNA-generatie, als basisgeneratiemodellen voor MOG-DFM. We demonstreren de effectiviteit van MOG-DFM bij het genereren van peptidebinders die zijn geoptimaliseerd over vijf eigenschappen (hemolyse, niet-vervuiling, oplosbaarheid, halfwaardetijd en bindingsaffiniteit), en bij het ontwerpen van DNA-sequenties met specifieke enhancerklassen en DNA-vormen. In het algemeen blijkt MOG-DFM een krachtig hulpmiddel te zijn voor multi-eigenschap-gestuurde biomoleculaire sequentieontwerp.