Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren onze redeneermodellen van de eerste generatie, DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, een model dat is getraind via grootschalig versterkend leren (RL) zonder begeleide fijnafstemming (SFT) als een voorlopige stap, toont opmerkelijke redeneervaardigheden. Via RL komt DeepSeek-R1-Zero natuurlijk naar voren met tal van krachtige en intrigerende redeneergedragingen. Het ondervindt echter uitdagingen zoals slechte leesbaarheid en taalmenging. Om deze problemen aan te pakken en redeneerprestaties verder te verbeteren, introduceren we DeepSeek-R1, dat meertraps training en koude-startgegevens voor RL incorporeert. DeepSeek-R1 behaalt prestaties vergelijkbaar met OpenAI-o1-1217 op redeneertaken. Om de onderzoeksgemeenschap te ondersteunen, stellen we DeepSeek-R1-Zero, DeepSeek-R1 en zes dichte modellen (1,5B, 7B, 8B, 14B, 32B, 70B) die zijn gedistilleerd uit DeepSeek-R1 op basis van Qwen en Llama, beschikbaar als open source.
Het vooraf trainen van taalmodellen met voorspelling van het volgende token is effectief gebleken voor het schalen van berekeningen, maar is beperkt tot de hoeveelheid beschikbare trainingsdata. Het schalen van reinforcement learning (RL) ontsluit een nieuwe dimensie voor de voortdurende verbetering van kunstmatige intelligentie, met de belofte dat grote taalmodellen (LLMs) hun trainingsdata kunnen vergroten door te leren verkennen met beloningen. Echter, eerder gepubliceerd werk heeft geen competitieve resultaten opgeleverd. In het licht hiervan rapporteren we over de trainingspraktijk van Kimi k1.5, ons nieuwste multimodale LLM getraind met RL, inclusief de RL-trainingsmethoden, multimodale datarecepten en infrastructuuroptimalisatie. Het schalen van lange context en verbeterde beleidsoptimalisatiemethoden zijn sleutelingrediënten van onze aanpak, die een eenvoudig, effectief RL-framework vestigt zonder te vertrouwen op complexere technieken zoals Monte Carlo-boomzoekingen, waardefuncties en procesbeloningsmodellen. Opmerkelijk genoeg behaalt ons systeem toonaangevende redeneerprestaties over meerdere benchmarks en modaliteiten - bijv. 77.5 op AIME, 96.2 op MATH 500, 94e percentiel op Codeforces, 74.9 op MathVista - vergelijkbaar met OpenAI's o1. Bovendien presenteren we effectieve lange-naar-korte methoden die lange-CoT-technieken gebruiken om korte-CoT-modellen te verbeteren, wat toonaangevende resultaten oplevert in korte-CoT-redenering - bijv. 60.8 op AIME, 94.6 op MATH500, 47.3 op LiveCodeBench - waarbij bestaande korte-CoT-modellen zoals GPT-4o en Claude Sonnet 3.5 ver overtreffen (tot +550%).
In dit artikel stellen we VideoLLaMA3 voor, een geavanceerder multimodaal basismodel voor het begrijpen van afbeeldingen en video's. De kernontwerpfilosofie van VideoLLaMA3 is visie-gecentreerd. De betekenis van "visie-gecentreerd" is tweeledig: het visie-gecentreerde trainingsparadigma en het visie-gecentreerde raamwerkontwerp. Het belangrijkste inzicht van ons visie-gecentreerde trainingsparadigma is dat hoogwaardige beeld-tekst data cruciaal is voor zowel het begrijpen van afbeeldingen als video's. In plaats van massale video-tekst datasets voor te bereiden, richten we ons op het construeren van grootschalige en hoogwaardige beeld-tekst datasets. VideoLLaMA3 kent vier trainingsfasen: 1) visie-gecentreerde uitlijningsfase, die de visie-encoder en projector voorbereidt; 2) visie-taal vooraf trainingsfase, die gezamenlijk de visie-encoder, projector en LLM afstemt met grootschalige beeld-tekst data die meerdere soorten bestrijkt (inclusief scèneafbeeldingen, documenten, grafieken) evenals alleen tekst data. 3) multi-taak fijnafstemmingsfase, die beeld-tekst SFT data voor downstream taken incorporeert en video-tekst data om een basis voor video begrip vast te stellen. 4) video-gecentreerde fijnafstemmingsfase, die de capaciteit van het model in video begrip verder verbetert. Wat betreft het raamwerkontwerp, om fijnmazige details in afbeeldingen beter vast te leggen, wordt de vooraf getrainde visie-encoder aangepast om afbeeldingen van verschillende groottes te coderen in visie-tokens met overeenkomstige aantallen, in plaats van een vast aantal tokens. Voor video-invoer verminderen we het aantal visie-tokens op basis van hun gelijkenis zodat de representatie van video's preciezer en compacter zal zijn. Dankzij visie-gecentreerde ontwerpen behaalt VideoLLaMA3 overtuigende prestaties in zowel afbeeldings- als video-begrip benchmarks.
Virtuele filmproductie vereist ingewikkelde besluitvormingsprocessen, waaronder scenario schrijven, virtuele cinematografie en nauwkeurige positionering en acties van acteurs. Geïnspireerd door recente ontwikkelingen in geautomatiseerde besluitvorming met op taalagenten gebaseerde samenlevingen, introduceert dit artikel FilmAgent, een nieuw LLM-gebaseerd multi-agent samenwerkingskader voor end-to-end filmautomatisering in onze geconstrueerde 3D virtuele ruimtes. FilmAgent simuleert verschillende crewrollen, waaronder regisseurs, scenarioschrijvers, acteurs en cinematografen, en bestrijkt belangrijke fasen van een filmproductieworkflow: (1) idee-ontwikkeling transformeert brainstormideeën in gestructureerde verhaallijnen; (2) scenario schrijven werkt dialogen en karakteracties voor elke scène uit; (3) cinematografie bepaalt de camerasetups voor elke opname. Een team van agenten werkt samen via iteratieve feedback en revisies, waarbij tussenliggende scripts worden geverifieerd en hallucinaties worden verminderd. We evalueren de gegenereerde video's op 15 ideeën en 4 belangrijke aspecten. Menselijke evaluatie toont aan dat FilmAgent alle baselines overtreft op alle aspecten en gemiddeld een score van 3.98 van de 5 behaalt, wat de haalbaarheid van multi-agent samenwerking in filmmaken aantoont. Verder onderzoek onthult dat FilmAgent, ondanks het gebruik van het minder geavanceerde GPT-4o-model, de single-agent o1 overtreft, wat het voordeel van een goed gecoördineerd multi-agent systeem aantoont. Ten slotte bespreken we de complementaire sterke en zwakke punten van OpenAI's tekst-naar-video model Sora en onze FilmAgent in filmmaken.
Grote taalmodellen (LLM's) tonen indrukwekkende prestaties, maar missen de flexibiliteit om zich snel aan te passen aan menselijke voorkeuren zonder opnieuw te worden getraind. In dit werk introduceren we Test-time Voorkeursoptimalisatie (TPO), een raamwerk dat LLM-uitvoer afstemt op menselijke voorkeuren tijdens inferentie, waardoor de noodzaak om modelparameters bij te werken wordt verwijderd. In plaats van uitsluitend te vertrouwen op numerieke beloningen, vertaalt TPO beloningssignalen naar tekstuele kritieken en gebruikt deze als tekstuele beloningen om zijn reactie iteratief te verfijnen. Evaluaties op benchmarks die instructieopvolging, voorkeursafstemming, veiligheid en wiskunde omvatten, tonen aan dat TPO geleidelijk de afstemming met menselijke voorkeuren verbetert. Opmerkelijk is dat na slechts een paar TPO-stappen het aanvankelijk niet-uitgelijnde Llama-3.1-70B-SFT-model het uitgelijnde tegenmodel, Llama-3.1-70B-Instruct, kan overtreffen. Bovendien schaalt TPO efficiënt met zowel de zoekbreedte als de diepte tijdens inferentie. Via casestudies illustreren we hoe TPO de aangeboren capaciteit van LLM benut om beloningssignalen te interpreteren en erop te reageren. Onze bevindingen vestigen TPO als een praktisch, lichtgewicht alternatief voor testtijd voorkeursoptimalisatie, waarbij uitlijning on-the-fly wordt bereikt. Onze code is openbaar beschikbaar op https://github.com/yafuly/TPO.
Mengmodellen van Experts (MoE) maken voornamelijk gebruik van een router om tokens toe te wijzen aan specifieke expertmodules, waarbij alleen gedeeltelijke parameters worden geactiveerd en ze vaak beter presteren dan dichte modellen. We betogen dat de scheiding tussen de besluitvorming van de router en de uitvoering van de experts een cruciale maar over het hoofd geziene kwestie is, wat leidt tot suboptimale expertselectie en ineffectief leren. Om dit aan te pakken, stellen we Autonomie-van-Experts (AoE) voor, een nieuw MoE-paradigma waarin experts zich autonoom selecteren om invoergegevens te verwerken. AoE is gebaseerd op het inzicht dat een expert zich bewust is van zijn eigen capaciteit om een token effectief te verwerken, een bewustzijn dat tot uiting komt in de schaal van zijn interne activaties. In AoE worden routers verwijderd; in plaats daarvan berekenen experts vooraf interne activaties voor invoergegevens en worden ze gerangschikt op basis van hun activatienormen. Alleen de best gerangschikte experts gaan verder met de voorwaartse doorvoer, terwijl de anderen worden afgebroken. De overhead van het vooraf berekenen van activaties wordt verminderd door een factorisatie van gewichten met lage rangorde. Deze aanpak van zelfevaluatie-gevolgd-door-partnervergelijking zorgt voor verbeterde expertselectie en effectief leren. We pre-trainen taalmodellen met 700M tot 4B parameters en tonen aan dat AoE traditionele MoE-modellen overtreft met vergelijkbare efficiëntie.
Onlangs hebben langdurig redenerende LLM's, zoals OpenAI's O1, uitgebreide redeneerprocessen aangenomen die vergelijkbaar zijn met hoe mensen nadenken over complexe problemen. Dit redeneerparadigma verbetert aanzienlijk de probleemoplossende vaardigheden van het model en heeft veelbelovende resultaten opgeleverd. Echter, het langdurige redeneerproces leidt tot een aanzienlijke toename in inferentietijd. Een dringende uitdaging is het verminderen van de inferentie-overhead van langdurig redenerende LLM's terwijl de nauwkeurigheid wordt gewaarborgd. In dit artikel tonen we experimenteel aan dat langdurig redenerende modellen moeite hebben met het effectief toewijzen van tokenbudgetten op basis van probleemcomplexiteit en redeneeroverlappingen. Om dit aan te pakken, stellen we Length-Harmonizing Fine-Tuning (O1-Pruner) voor, met als doel redeneeroverhead te minimaliseren terwijl de nauwkeurigheid wordt behouden. Deze effectieve fine-tuning methode schat eerst de basale prestaties van de LLM in door vooraf te monsteren en gebruikt vervolgens RL-stijl fine-tuning om het model aan te moedigen kortere redeneerprocessen te genereren binnen nauwkeurigheidsbeperkingen. Dit stelt het model in staat om efficiënt te redeneren met minder redundantie terwijl de nauwkeurigheid behouden blijft. Experimenten op verschillende wiskundige redeneerbenchmarks tonen aan dat O1-Pruner niet alleen de inferentie-overhead aanzienlijk vermindert, maar ook een hogere nauwkeurigheid behaalt, waardoor een nieuwe en veelbelovende oplossing wordt geboden voor deze uitdaging. Onze code komt binnenkort beschikbaar op https://github.com/StarDewXXX/O1-Pruner
Best-of-N (BoN) sampling, een veelgebruikte strategie voor schaalvergroting van Grote Taalmodellen (LLMs) op testtijd, vertrouwt op beloningsmodellen om de beste kandidaatoplossing uit meerdere generaties te selecteren. Traditionele beloningsmodellen kennen echter vaak willekeurige en inconsistente scores toe, waardoor hun effectiviteit beperkt is. Om dit aan te pakken, stellen we een Pairwise Reward Model (Pairwise RM) voor dat gecombineerd wordt met een knock-outtoernooi voor BoN-sampling. In plaats van absolute scores toe te kennen, evalueert Pairwise RM, gegeven een wiskundig probleem, gelijktijdig de juistheid van twee kandidaatoplossingen. Deze benadering elimineert de noodzaak voor willekeurige scoring en maakt validatie van oplossingen mogelijk door middel van parallelle vergelijking. In het knock-outtoernooi voert Pairwise RM pairwise vergelijkingen uit tussen kandidaatoplossingen en elimineert deze iteratief de onjuiste. We construeren \ourdataset, een grootschalige dataset van 443K pairwise vergelijkingen afgeleid van NumiaMath en geannoteerd met gemini-1.5-flash, en trainen de Pairwise RM via begeleid finetunen. Experimenten op MATH-500 en de Olympiad Bench tonen aanzienlijke verbeteringen aan ten opzichte van traditionele discriminerende beloningsmodellen. En er wordt een relatieve verbetering van 40\% tot 60\% bereikt op de meest uitdagende 50\% van de problemen.
Multi-view 3D-reconstructie blijft een kernuitdaging in computervisie, met name in toepassingen die nauwkeurige en schaalbare representaties vereisen vanuit diverse perspectieven. Huidige toonaangevende methoden zoals DUSt3R maken gebruik van een fundamenteel paarsgewijze benadering, waarbij afbeeldingen paar voor paar worden verwerkt en kostbare globale uitlijningsprocedures nodig zijn om te reconstrueren vanuit meerdere weergaven. In dit werk stellen we Fast 3D-reconstructie (Fast3R) voor, een nieuwe multi-view generalisatie van DUSt3R die efficiënte en schaalbare 3D-reconstructie bereikt door vele weergaven parallel te verwerken. De op Transformer gebaseerde architectuur van Fast3R stuurt N afbeeldingen door in een enkele voorwaartse stap, waardoor de noodzaak voor iteratieve uitlijning wordt omzeild. Door uitgebreide experimenten op camerapositieschatting en 3D-reconstructie toont Fast3R state-of-the-art prestaties, met aanzienlijke verbeteringen in inferentiesnelheid en verminderde foutenaccumulatie. Deze resultaten vestigen Fast3R als een robuust alternatief voor multi-view toepassingen, met verbeterde schaalbaarheid zonder in te leveren op reconstructienauwkeurigheid.
Grote Taalmodellen (LLM's) transformeren kunstmatige intelligentie en evolueren naar taakgerichte systemen die in staat zijn tot autonome planning en uitvoering. Een van de belangrijkste toepassingen van LLM's is conversatie AI-systemen, die zich moeten begeven in meerdelige dialogen, domeinspecifieke API's moeten integreren en zich moeten houden aan strikte beleidsbeperkingen. Het evalueren van deze agenten blijft echter een grote uitdaging, aangezien traditionele methoden niet in staat zijn om de complexiteit en variabiliteit van interacties in de echte wereld vast te leggen. We introduceren IntellAgent, een schaalbaar, open-source multi-agent framework dat is ontworpen om conversatie AI-systemen grondig te evalueren. IntellAgent automatiseert de creatie van diverse, synthetische benchmarks door beleidsgestuurde grafische modellering, realistische gebeurtenisgeneratie en interactieve gebruikers-agent simulaties te combineren. Deze innovatieve aanpak biedt gedetailleerde diagnostiek, waarbij de beperkingen van statische en handmatig samengestelde benchmarks met grofkorrelige metrieken worden aangepakt. IntellAgent vertegenwoordigt een paradigmaverschuiving in de evaluatie van conversatie AI. Door realistische, multipolitie scenario's te simuleren over verschillende niveaus van complexiteit, legt IntellAgent de genuanceerde wisselwerking tussen agentcapaciteiten en beleidsbeperkingen vast. In tegenstelling tot traditionele methoden maakt het gebruik van een op grafieken gebaseerd beleidsmodel om relaties, waarschijnlijkheden en complexiteiten van beleidsinteracties voor te stellen, waardoor zeer gedetailleerde diagnostiek mogelijk is. IntellAgent identificeert ook kritieke prestatieverschillen en biedt bruikbare inzichten voor gerichte optimalisatie. Het modulaire, open-source ontwerp ondersteunt naadloze integratie van nieuwe domeinen, beleidsregels en API's, wat reproduceerbaarheid en samenwerking in de gemeenschap bevordert. Onze bevindingen tonen aan dat IntellAgent een effectief kader vormt voor het bevorderen van conversatie AI door uitdagingen in het overbruggen van onderzoek en implementatie aan te pakken. Het framework is beschikbaar op https://github.com/plurai-ai/intellagent.