Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit onderzoek onderzoekt de haalbaarheid van het automatiseren van klinische codering in het Russisch, een taal met beperkte biomedische bronnen. We presenteren een nieuwe dataset voor ICD-codering, die diagnosevelden uit elektronische patiëntendossiers (EHR's) bevat, geannoteerd met meer dan 10.000 entiteiten en meer dan 1.500 unieke ICD-codes. Deze dataset dient als benchmark voor verschillende state-of-the-art modellen, waaronder BERT, LLaMA met LoRA en RAG, met aanvullende experimenten die transfer learning over domeinen (van PubMed-samenvattingen naar medische diagnoses) en terminologieën (van UMLS-concepten naar ICD-codes) onderzoeken. Vervolgens passen we het best presterende model toe om een interne EHR-dataset te labelen die patiëntgeschiedenissen van 2017 tot 2021 bevat. Onze experimenten, uitgevoerd op een zorgvuldig samengestelde testset, tonen aan dat training met de automatisch voorspelde codes leidt tot een significante verbetering in nauwkeurigheid vergeleken met handmatig geannoteerde data van artsen. Wij geloven dat onze bevindingen waardevolle inzichten bieden in het potentieel voor het automatiseren van klinische codering in talen met beperkte bronnen zoals het Russisch, wat de klinische efficiëntie en data-nauwkeurigheid in deze contexten zou kunnen verbeteren.
Recente ontwikkelingen in het afstemmen van menselijke voorkeuren hebben de multimodale generatie en interpretatie aanzienlijk verbeterd. Een belangrijke aanpak is het trainen van beloningsmodellen om voorkeursoptimalisatie te begeleiden. Bestaande modellen zijn echter vaak taakspecifiek, wat hun aanpasbaarheid over diverse visuele toepassingen beperkt. Wij stellen ook dat het gezamenlijk leren om meerdere taken te beoordelen een synergetisch effect kan bevorderen, waarbij een verbeterd beeldbegrip de beoordeling van beeldgeneratie versterkt, en een verfijnde beeldbeoordeling de videoanalyse ten goede komt door betere frameanalyse. Hiertoe stelt dit artikel UnifiedReward voor, het eerste geïntegreerde beloningsmodel voor multimodale interpretatie en generatiebeoordeling, dat zowel paarsgewijze rangschikking als puntgewijze scoring mogelijk maakt, wat kan worden ingezet voor het afstemmen van voorkeuren in visuele modellen. Specifiek (1) ontwikkelen we eerst UnifiedReward op onze geconstrueerde grootschalige dataset van menselijke voorkeuren, inclusief zowel beeld- als videogeneratie/interpretatietaken. (2) Vervolgens wordt het gebruikt om automatisch hoogwaardige voorkeurspaardata te construeren op basis van de visuele modellen, waarbij hun uitvoer fijnmazig wordt gefilterd door paarsgewijze rangschikking en puntselectie. (3) Ten slotte worden deze data gebruikt voor hun voorkeursafstemming via Direct Preference Optimization (DPO). Experimentele resultaten tonen aan dat gezamenlijk leren om diverse visuele taken te beoordelen tot aanzienlijke wederzijdse voordelen kan leiden, en we passen onze pijplijn toe op zowel beeld- als videointerpretatie/generatietaken, wat de prestaties in elk domein aanzienlijk verbetert.
Algemene meertalige vectorrepresentaties, gebruikt in retrieval, regressie en classificatie, worden traditioneel verkregen uit bidirectionele encodermodellen. Ondanks hun brede toepasbaarheid zijn encoders recentelijk overschaduwd door vooruitgang in generatieve decoder-only modellen. Echter, veel innovaties die deze vooruitgang aansturen, zijn niet inherent gebonden aan decoders. In dit artikel herzien we de ontwikkeling van meertalige encoders door de lens van deze vooruitgang en introduceren we EuroBERT, een familie van meertalige encoders die Europese en wereldwijd veel gesproken talen omvat. Onze modellen overtreffen bestaande alternatieven in een diverse reeks taken, variërend van meertalige capaciteiten, wiskunde en codering, en ondersteunen natively sequenties van tot 8.192 tokens. We onderzoeken ook de ontwerpbeslissingen achter EuroBERT en bieden inzichten in onze datasetcompositie en trainingspipeline. We maken de EuroBERT-modellen, inclusief tussenliggende trainingscheckpoints, samen met ons trainingsframework, publiekelijk beschikbaar.
Onlangs heeft DeepSeek R1 aangetoond hoe reinforcement learning met eenvoudige op regels gebaseerde prikkels de autonome ontwikkeling van complex redeneren in grote taalmodellen kan mogelijk maken, gekenmerkt door het "aha-moment", waarin het model zelfreflectie en een toename van de responslengte vertoont tijdens de training. Pogingen om dit succes uit te breiden naar multimodaal redeneren slaagden echter vaak niet om deze sleutelkenmerken te reproduceren. In dit rapport presenteren we de eerste succesvolle replicatie van deze opkomende kenmerken voor multimodaal redeneren op slechts een niet-SFT 2B-model. Beginnend met Qwen2-VL-2B en het toepassen van reinforcement learning direct op de SAT-dataset, behaalt ons model een nauwkeurigheid van 59,47% op CVBench, wat het basismodel met ongeveer ~30% overtreft en beide SFT-instellingen met ~2% overschrijdt. Daarnaast delen we onze mislukte pogingen en inzichten bij het proberen om R1-achtig redeneren te bereiken met behulp van RL met instruct modellen, met als doel de betrokken uitdagingen te belichten. Onze belangrijkste observaties omvatten: (1) het toepassen van RL op instructiemodellen resulteert vaak in triviale redeneertrajecten, en (2) naïeve lengtebeloningen zijn niet effectief in het uitlokken van redeneervaardigheden. De projectcode is beschikbaar op https://github.com/turningpoint-ai/VisualThinker-R1-Zero
De snelle ontwikkeling van grote taalmodellen (LLM's) heeft aanzienlijke aandacht gebracht naar spraakmodellen, met name de recente vooruitgang in spraak-naar-spraakprotocollen die spraakinvoer en -uitvoer ondersteunen. De bestaande benchmarks gebruiken echter automatische tekstgebaseerde evaluatoren om de instructievolgcapaciteiten van deze modellen te beoordelen, zonder rekening te houden met paralinguïstische informatie in zowel spraakbegrip als -generatie. Om deze problemen aan te pakken, introduceren we S2S-Arena, een nieuwe arena-stijl S2S-benchmark die de instructievolgcapaciteiten evalueert met paralinguïstische informatie in zowel spraakinvoer als -uitvoer over real-world taken. We ontwerpen 154 samples die TTS en live-opnames combineren in vier domeinen met 21 taken en evalueren handmatig bestaande populaire spraakmodellen in een arena-stijl. De experimentele resultaten tonen aan dat: (1) naast de superieure prestaties van GPT-4o, het spraakmodel van gecascadeerde ASR, LLM en TTS het gezamenlijk getrainde model overtreft na tekst-spraakalignering in spraak-naar-spraakprotocollen; (2) bij het overwegen van paralinguïstische informatie, de kennis van het spraakmodel voornamelijk afhangt van de LLM-backbone, en de meertalige ondersteuning daarvan beperkt wordt door de spraakmodule; (3) uitstekende spraakmodellen kunnen al de paralinguïstische informatie in spraakinvoer begrijpen, maar het genereren van geschikte audio met paralinguïstische informatie blijft een uitdaging.
Recente vooruitgang in grote taalmodellen heeft opmerkelijke redeneervaardigheden aangetoond door middel van Chain of Thought (CoT) prompting, maar vaak ten koste van overmatige uitvoerigheid in hun tussenliggende outputs, wat de rekenkosten verhoogt. Wij introduceren Sketch-of-Thought (SoT), een nieuw prompting-framework dat cognitief geïnspireerde redeneerparadigma's combineert met linguïstische beperkingen om het tokengebruik te minimaliseren terwijl de redeneernauwkeurigheid behouden blijft. SoT is ontworpen als een flexibel framework dat elk aangepast redeneerparadigma op basis van cognitieve wetenschap kan incorporeren, en we concretiseren het met drie van dergelijke paradigma's - Conceptual Chaining, Chunked Symbolism en Expert Lexicons - elk afgestemd op verschillende redeneertaken en dynamisch geselecteerd via een lichtgewicht routeringsmodel. Door middel van uitgebreide evaluatie over 15 redeneerdatasets met meerdere talen en multimodale scenario's, tonen we aan dat SoT tokenreducties van 76% bereikt met een verwaarloosbare impact op de nauwkeurigheid. In bepaalde domeinen zoals wiskundig en multi-hop redeneren, verbetert het zelfs de nauwkeurigheid terwijl aanzienlijk minder tokens worden gebruikt. Onze code is publiekelijk beschikbaar: https://www.github.com/SimonAytes/SoT.
In dit werk presenteren we de eerste toepassing van Reinforcement Learning met Verifieerbare Beloning (RLVR) op een Omni-multimodaal groot taalmodel in de context van emotieherkenning, een taak waarbij zowel visuele als auditieve modaliteiten een cruciale rol spelen. We benutten RLVR om het Omni-model te optimaliseren, waardoor de prestaties aanzienlijk worden verbeterd op drie belangrijke aspecten: redeneervermogen, nauwkeurigheid van emotieherkenning en generalisatievermogen. De introductie van RLVR verbetert niet alleen de algehele prestaties van het model op in-distributiegegevens, maar toont ook superieure robuustheid bij evaluatie op out-of-distributie datasets. Belangrijker nog, het verbeterde redeneervermogen maakt een duidelijke analyse mogelijk van de bijdragen van verschillende modaliteiten, met name visuele en auditieve informatie, in het emotieherkenningsproces. Dit biedt waardevolle inzichten voor de optimalisatie van multimodale grote taalmodelen.
Een essentieel onderdeel van moderne recurrente sequentiemodellen is de vergeetpoort. Hoewel Transformers geen expliciete recurrente vorm hebben, laten we zien dat een vergeetpoort op natuurlijke wijze kan worden geïntegreerd in Transformers door de niet-genormaliseerde aandachtsscores op een data-afhankelijke manier te verlagen. We noemen dit aandachtmechanisme de Vergetende Aandacht en het resulterende model de Vergetende Transformer (FoX). We tonen aan dat FoX de Transformer overtreft op het gebied van taalmodellering met lange context, lengte-extrapolatie en downstream taken met korte context, terwijl het op hetzelfde niveau presteert als de Transformer bij downstream taken met lange context. Bovendien is het compatibel met het FlashAttention-algoritme en heeft het geen positionele embeddings nodig. Verschillende analyses, waaronder de naald-in-de-hooiberg-test, laten zien dat FoX ook de superieure lange-contextmogelijkheden van de Transformer behoudt ten opzichte van recurrente sequentiemodellen zoals Mamba-2, HGRN2 en DeltaNet. We introduceren ook een "Pro"-blokontwerp dat enkele veelvoorkomende architectuurcomponenten van recurrente sequentiemodellen integreert en ontdekken dat het de prestaties van zowel FoX als de Transformer aanzienlijk verbetert. Onze code is beschikbaar op https://github.com/zhixuan-lin/forgetting-transformer.
Bestaande Large Reasoning Models (LRMs) hebben het potentieel van reinforcement learning (RL) aangetoond om de complexe redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Hoewel ze opmerkelijke prestaties leveren op uitdagende taken zoals wiskunde en programmeren, vertrouwen ze vaak op hun interne kennis om problemen op te lossen, wat ontoereikend kan zijn voor tijdgevoelige of kennisintensieve vragen, wat leidt tot onnauwkeurigheden en hallucinaties. Om dit aan te pakken, stellen we R1-Searcher voor, een nieuwe tweefasen RL-benadering op basis van uitkomsten, ontworpen om de zoekcapaciteiten van LLMs te verbeteren. Deze methode stelt LLMs in staat om autonoom externe zoeksystemen aan te roepen om tijdens het redeneerproces aanvullende kennis te verkrijgen. Ons framework vertrouwt uitsluitend op RL, zonder procesbeloningen of distillatie nodig te hebben voor een koude start. Onze experimenten tonen aan dat onze methode aanzienlijk beter presteert dan eerdere sterke RAG-methoden, zelfs in vergelijking met het closed-source GPT-4o-mini.
Video-inpainting, dat als doel heeft beschadigde videocontent te herstellen, heeft aanzienlijke vooruitgang geboekt. Ondanks deze ontwikkelingen worden bestaande methoden, of ze nu pixels van niet-gemaskerde gebieden verspreiden via optische stroming en receptieve veld-priors, of beeld-inpainting-modellen tijdelijk uitbreiden, geconfronteerd met uitdagingen bij het genereren van volledig gemaskeerde objecten of het balanceren van de concurrerende doelstellingen van achtergrondcontextbehoud en voorgrondgeneratie in één model. Om deze beperkingen aan te pakken, stellen we een nieuw dual-stream paradigma voor, VideoPainter, dat een efficiënte contextencoder omvat (slechts 6% van de backbone-parameters) om gemaskeerde video's te verwerken en backbone-achtige achtergrondcontextuele signalen in te brengen in elke vooraf getrainde video DiT, waardoor semantisch consistente inhoud op een plug-and-play-manier wordt geproduceerd. Deze architecturale scheiding vermindert de leercomplexiteit van het model aanzienlijk, terwijl het een genuanceerde integratie van cruciale achtergrondcontext mogelijk maakt. We introduceren ook een nieuwe doelregio-ID-hersamplingstechniek die inpainting van video's van elke lengte mogelijk maakt, wat onze praktische toepasbaarheid aanzienlijk vergroot. Daarnaast stellen we een schaalbare datasetpijplijn op die gebruikmaakt van huidige visiebegripsmodellen, waarbij we VPData en VPBench bijdragen om segmentatiegebaseerde inpaintingtraining en -beoordeling te vergemakkelijken, de grootste video-inpaintingdataset en benchmark tot nu toe met meer dan 390K diverse clips. Door inpainting als basis voor de pijplijn te gebruiken, verkennen we ook downstreamtoepassingen, waaronder video-editing en video-editingpaardatageneratie, waarbij we competitieve prestaties en aanzienlijk praktisch potentieel demonstreren. Uitgebreide experimenten tonen de superieure prestaties van VideoPainter aan in zowel inpainting van video's van elke lengte als editing, over acht belangrijke metrieken, waaronder videokwaliteit, maskerregiobehoud en tekstuele samenhang.
LLM-gebaseerde agents worden steeds vaardiger in het oplossen van webgebaseerde taken. Met deze capaciteit neemt ook het risico op misbruik voor kwaadaardige doeleinden toe, zoals het plaatsen van misinformatie in een online forum of het verkopen van illegale stoffen op een website. Om deze risico's te evalueren, stellen we SafeArena voor, de eerste benchmark die zich richt op het opzettelijke misbruik van webagents. SafeArena bestaat uit 250 veilige en 250 schadelijke taken verspreid over vier websites. We classificeren de schadelijke taken in vijf categorieën van schade — misinformatie, illegale activiteiten, intimidatie, cybercriminaliteit en sociale vooroordelen — ontworpen om realistisch misbruik van webagents te beoordelen. We evalueren toonaangevende LLM-gebaseerde webagents, waaronder GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B en Llama-3.2 90B, op onze benchmark. Om hun gevoeligheid voor schadelijke taken systematisch te beoordelen, introduceren we het Agent Risk Assessment-raamwerk dat het gedrag van agents categoriseert in vier risiconiveaus. We ontdekken dat agents verrassend meegaand zijn met kwaadaardige verzoeken, waarbij GPT-4o en Qwen-2 respectievelijk 34,7% en 27,3% van de schadelijke verzoeken voltooien. Onze bevindingen onderstrepen de dringende noodzaak van veiligheidsafstemmingsprocedures voor webagents. Onze benchmark is hier beschikbaar: https://safearena.github.io
We presenteren TrajectoryCrafter, een nieuwe benadering voor het omleiden van cameratrajecten voor monoscopische video's. Door deterministische beeldtransformaties te scheiden van stochastische inhoudsgeneratie, bereikt onze methode nauwkeurige controle over door de gebruiker gespecificeerde cameratrajecten. We stellen een nieuw dual-stream conditioneel videodiffusiemodel voor dat gelijktijdig pointcloud-renders en bronvideo's integreert als condities, waardoor nauwkeurige beeldtransformaties en coherente 4D-inhoudsgeneratie worden gegarandeerd. In plaats van schaarse multiview-video's te benutten, stellen we een hybride trainingsdataset samen die web-schaal monoscopische video's combineert met statische multiview-datasets, dankzij onze innovatieve dubbele-reprojectiestrategie, wat een robuuste generalisatie over diverse scènes aanzienlijk bevordert. Uitgebreide evaluaties op multiview- en grootschalige monoscopische video's tonen de superieure prestaties van onze methode aan.
Recente vooruitgang in reinforcement learning (RL) voor grote taalmodellen (LLMs), geïllustreerd door DeepSeek R1, heeft aangetoond dat zelfs een eenvoudige vraag-antwoordtaak de redeneervaardigheden van een LLM aanzienlijk kan verbeteren. In dit werk breiden we deze aanpak uit door de taak aan te passen naar een multi-attempt setting. In plaats van één antwoord per vraag te genereren, krijgt het model meerdere pogingen, waarbij feedback wordt gegeven na incorrecte antwoorden. De multi-attempt taak moedigt het model aan om eerdere pogingen te verfijnen en de zoekefficiëntie te verbeteren. Experimentele resultaten laten zien dat zelfs een klein LLM dat is getraind op een multi-attempt taak een aanzienlijk hogere nauwkeurigheid bereikt wanneer het wordt geëvalueerd met meer pogingen, waarbij het verbetert van 45,6% met 1 poging naar 52,5% met 2 pogingen op de wiskundige benchmark. Daarentegen vertoont hetzelfde LLM dat is getraind op een standaard single-turn taak slechts een marginale verbetering, waarbij het stijgt van 42,3% naar 43,2% wanneer het meer pogingen krijgt tijdens de evaluatie. De resultaten geven aan dat, vergeleken met de standaard single-turn taak, een LLM dat is getraind op een multi-attempt taak iets betere prestaties behaalt op wiskundige benchmarks, terwijl het ook leert om zijn antwoorden effectiever te verfijnen op basis van gebruikersfeedback. Volledige code is beschikbaar op https://github.com/DualityRL/multi-attempt.
De uitdaging om de omvang van Large Language Models (LLM's) te verkleinen terwijl hun prestaties behouden blijven, heeft aanzienlijke aandacht gekregen. Bestaande methoden, zoals modeldistillatie en transfer learning, slagen er echter vaak niet in om hoge nauwkeurigheid te bereiken. Om deze beperking aan te pakken, introduceren we de Branch-Merge-distillatiebenadering, die modelcompressie verbetert via twee fasen: (1) de Branch-fase, waarbij kennis van een groot leraarmodel selectief wordt gedistilleerd in gespecialiseerde studentmodellen via domeinspecifieke supervised fine-tuning (SFT); en (2) de Merge-fase, waarbij deze studentmodellen worden samengevoegd om kruis-domeinkennisoverdracht mogelijk te maken en de generalisatie te verbeteren. We valideren onze distillatiebenadering met DeepSeek-R1 als leraar en DeepSeek-R1-Distill-Qwen-32B als student. Het resulterende samengevoegde model, TinyR1-32B-Preview, presteert beter dan zijn tegenhanger DeepSeek-R1-Distill-Qwen-32B op meerdere benchmarks, waaronder Wiskunde (+5,5 punten), Coderen (+4,4 punten) en Wetenschap (+2,9 punten), terwijl het bijna gelijke prestaties behaalt aan DeepSeek-R1 op AIME 2024. De Branch-Merge-distillatiebenadering biedt een schaalbare oplossing voor het creëren van kleinere, hoogpresterende LLM's met verminderde rekenkosten en tijd.
Code-embeddings zijn essentieel voor semantische codezoekopdrachten; huidige benaderingen hebben echter vaak moeite om de precieze syntactische en contextuele nuances in code vast te leggen. Open-source modellen zoals CodeBERT en UniXcoder vertonen beperkingen in schaalbaarheid en efficiëntie, terwijl hoogpresterende propriëtaire systemen aanzienlijke rekenkosten met zich meebrengen. Wij introduceren een parameter-efficiënte fine-tuningmethode gebaseerd op Low-Rank Adaptation (LoRA) om taakspecifieke adapters te bouwen voor coderetrieval. Onze aanpak reduceert het aantal trainbare parameters tot minder dan twee procent van het basismodel, waardoor snelle fine-tuning op uitgebreide codecorpora mogelijk wordt (2 miljoen samples in 25 minuten op twee H100 GPU's). Experimenten tonen een verbetering van tot 9,1% in Mean Reciprocal Rank (MRR) voor Code2Code-zoekopdrachten, en tot 86,69% voor Text2Code- zoekopdrachten in meerdere programmeertalen. Het onderscheid in taak- en taalgerichte aanpassing helpt bij het onderzoeken van de gevoeligheid van coderetrieval voor syntactische en linguïstische variaties.
Huishoudelijke taken in de echte wereld vormen aanzienlijke uitdagingen voor mobiele manipulatierobots. Een analyse van bestaande robotica-benchmarks laat zien dat succesvolle taakuitvoering afhangt van drie cruciale vaardigheden voor volledige lichaamscontrole: bimanuele coördinatie, stabiele en precieze navigatie, en uitgebreide bereikbaarheid van de eindeffector. Het bereiken van deze vaardigheden vereist een zorgvuldig ontworpen hardware, maar de resulterende systeemcomplexiteit bemoeilijkt het leren van visuomotorische beleidsregels verder. Om deze uitdagingen aan te pakken, introduceren we de BEHAVIOR Robot Suite (BRS), een uitgebreid raamwerk voor volledige lichaamsmanipulatie bij diverse huishoudelijke taken. Gebouwd op een bimanuele, wielgedreven robot met een 4-DoF torso, integreert BRS een kosteneffectieve interface voor volledige lichaamsteleoperatie voor gegevensverzameling en een nieuw algoritme voor het leren van visuomotorische beleidsregels voor het hele lichaam. We evalueren BRS op vijf uitdagende huishoudelijke taken die niet alleen de drie kernvaardigheden benadrukken, maar ook extra complexiteiten introduceren, zoals navigatie over lange afstanden, interactie met gearticuleerde en vervormbare objecten, en manipulatie in beperkte ruimtes. Wij geloven dat de geïntegreerde robotische belichaming, de interface voor gegevensverzameling en het leerraamwerk van BRS een belangrijke stap vormen naar het mogelijk maken van volledige lichaamsmanipulatie in de echte wereld voor alledaagse huishoudelijke taken. BRS is open-source beschikbaar op https://behavior-robot-suite.github.io/.
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in zowel beeld- als videogeneratie, maar kampen nog steeds met hoge rekenkosten. Als een effectieve oplossing streeft flow matching ernaar het diffusieproces van diffusiemodellen om te vormen tot een rechte lijn voor generatie in een paar stappen of zelfs in één stap. In dit artikel stellen we echter dat de oorspronkelijke trainingspipeline van flow matching niet optimaal is en introduceren we twee technieken om deze te verbeteren. Ten eerste introduceren we progressieve reflow, waarbij de diffusiemodellen geleidelijk worden omgevormd in lokale tijdsstappen totdat het hele diffusieproces is voltooid, wat de moeilijkheidsgraad van flow matching vermindert. Ten tweede introduceren we aligned v-prediction, dat het belang benadrukt van richtingsmatching in flow matching boven grootte-matching. Experimentele resultaten op SDv1.5 en SDXL demonstreren de effectiviteit van onze methode. Zo behaalt SDv1.5 bijvoorbeeld een FID van 10,70 op de MSCOCO2014 validatieset met slechts 4 bemonsteringsstappen, wat dicht in de buurt komt van ons leraarmodel (32 DDIM-stappen, FID = 10,05).
Lineaire Sequentiemodellering (LSM), zoals lineaire aandacht, toestandsruimtemodellen en lineaire RNN's, en Mixture-of-Experts (MoE) zijn recent naar voren gekomen als belangrijke architectuurverbeteringen. In dit artikel introduceren we Linear-MoE, een productieniveau systeem voor het modelleren en trainen van grootschalige modellen die LSM integreren met MoE. Linear-MoE benut de voordelen van zowel LSM-modules voor lineaire-complexiteit sequentiemodellering als MoE-lagen voor spaarse activatie, met als doel hoge prestaties te bieden met efficiënte training. Het Linear-MoE systeem bestaat uit: 1) een modelleringssubsysteem, dat een uniform raamwerk biedt dat alle instanties van LSM ondersteunt, en 2) een trainingssubsysteem, dat efficiënte training mogelijk maakt door het incorporeren van verschillende geavanceerde parallelisme-technologieën, met name Sequentie Parallelisme dat is ontworpen voor Linear-MoE modellen. Daarnaast onderzoeken we hybride modellen die Linear-MoE lagen combineren met standaard Transformer-MoE lagen met zijn Sequentie Parallelisme om de modelflexibiliteit en prestaties verder te verbeteren. Evaluaties op twee modelreeksen, A0.3B-2B en A1B-7B, tonen aan dat Linear-MoE efficiëntiewinsten behaalt terwijl het competitieve prestaties behoudt op verschillende benchmarks, wat het potentieel ervan aantoont als een volgende-generatie fundamentele modelarchitectuur. Code: https://github.com/OpenSparseLLMs/Linear-MoE.
In dit rapport presenteren we het derde technische verslag over de ontwikkeling van langzaam-denken modellen als onderdeel van het STILL-project. Naarmate het technische pad duidelijker wordt, is het opschalen van RL-training een centrale techniek geworden voor het implementeren van dergelijke redeneermodellen. We experimenteren systematisch met en documenteren de effecten van verschillende factoren die RL-training beïnvloeden, waarbij we experimenten uitvoeren op zowel basismodellen als fijn afgestemde modellen. Specifiek tonen we aan dat onze RL-trainingsaanpak de Qwen2.5-32B basismodellen consistent verbetert, zowel in responslengte als in testnauwkeurigheid. Bovendien laten we zien dat zelfs wanneer een model zoals DeepSeek-R1-Distill-Qwen-1.5B al een hoog prestatieniveau heeft bereikt, het verder kan worden verfijnd door RL-training, wat resulteert in een nauwkeurigheid van 39,33% op AIME 2024. Naast RL-training onderzoeken we ook het gebruik van toolmanipulatie, waarbij we vaststellen dat dit de redeneerprestaties van grote redeneermodellen aanzienlijk verbetert. Deze aanpak bereikt een opmerkelijke nauwkeurigheid van 86,67% met een hebberige zoekstrategie op AIME 2024, wat de effectiviteit ervan in het verbeteren van modelcapaciteiten onderstreept. We maken onze bronnen beschikbaar op de STILL-projectwebsite: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
Retrieval-augmented generation (RAG) heeft aanzienlijke vaardigheid getoond bij het uitvoeren van vraag-antwoordtaken (QA) binnen een gespecificeerd corpus. Desalniettemin bestaan er nog steeds talrijke gevallen waarin RAG faalt in QA-taken. Deze mislukkingen zijn niet uitsluitend toe te schrijven aan de beperkingen van Large Language Models (LLMs); in plaats daarvan ontstaan ze voornamelijk door het ophalen van onnauwkeurige informatie voor LLMs als gevolg van twee beperkingen: (1) Huidige RAG-methoden segmenteren het corpus zonder rekening te houden met semantiek, waardoor het moeilijk is om relevante context te vinden vanwege een verstoorde correlatie tussen vragen en de segmenten. (2) Er is een afweging tussen het missen van essentiële context bij het ophalen van minder context en het verkrijgen van irrelevante context bij het ophalen van meer context. In dit artikel introduceren we een RAG-framework (SAGE) om deze beperkingen te overwinnen. Ten eerste, om het segmentatieprobleem zonder semantische overwegingen aan te pakken, stellen we voor om een semantisch segmentatiemodel te trainen. Dit model wordt getraind om het corpus te segmenteren in semantisch complete brokken. Ten tweede, om ervoor te zorgen dat alleen de meest relevante brokken worden opgehaald terwijl de irrelevante worden genegeerd, ontwerpen we een brokselectie-algoritme dat dynamisch brokken selecteert op basis van de afnemende snelheid van de relevantiescore, wat leidt tot een relevantere selectie. Ten derde, om de precisie van de opgehaalde brokken verder te waarborgen, stellen we voor om LLMs te laten beoordelen of de opgehaalde brokken overmatig of ontoereikend zijn en vervolgens de hoeveelheid context dienovereenkomstig aan te passen. Experimenten tonen aan dat SAGE de baseline-methoden met gemiddeld 61,25% overtreft in de kwaliteit van QA. Bovendien, door het vermijden van het ophalen van ruiscontext, verlaagt SAGE de kosten van de tokens die worden verbruikt tijdens LLM-inferentie en behaalt het een gemiddelde verbetering van 49,41% in kostenefficiëntie. Daarnaast biedt ons werk waardevolle inzichten voor het verbeteren van RAG.
Huidige geavanceerde taalmodellen met lange context bieden groot potentieel voor real-world software engineering toepassingen. Echter wordt de vooruitgang in dit kritieke domein nog steeds belemmerd door een fundamentele beperking: het ontbreken van een rigoureus evaluatiekader voor het begrijpen van lange code. Om deze hindernis te overbruggen, stellen we een benchmark voor lang codebegrip voor, LONGCODEU, vanuit vier aspecten (8 taken) om het vermogen van LCLMs (Language Models with Long Context) om lange code te begrijpen, te evalueren, zoals vereist voor praktische toepassingen, waaronder code-eenheid perceptie, begrip binnen code-eenheden, begrip van relaties tussen code-eenheden, en begrip van lange code documentatie. We evalueren 9 populaire LCLMs op LONGCODEU (d.w.z. 6 algemene modellen en 3 code modellen). Onze experimentele resultaten onthullen belangrijke beperkingen in de huidige mogelijkheden van LCLMs voor het begrijpen van lange code. Met name daalt de prestaties van LCLMs dramatisch wanneer de lengte van de lange code groter is dan 32K, wat ver onder hun geclaimde contextvensters van 128K-1M blijft. Van de vier aspecten is het begrijpen van relaties tussen code-eenheden het meest uitdagend voor LCLMs. Onze studie biedt waardevolle inzichten voor het optimaliseren van LCLMs en het bevorderen van vooruitgang in software engineering.
De sequentiële aard van moderne LLM's maakt ze duur en traag, en speculatief sampling heeft zich bewezen als een effectieve oplossing voor dit probleem. Methoden zoals EAGLE voeren autoregressie uit op feature-niveau, waarbij top-layer features van het doelmodel worden hergebruikt om betere resultaten te behalen dan standaard speculatief sampling. Een groeiende trend in de LLM-gemeenschap is het opschalen van trainingsdata om de intelligentie van het model te verbeteren zonder de inferentiekosten te verhogen. Wij observeren echter dat het opschalen van data slechts beperkte verbeteringen biedt voor EAGLE. Wij identificeren dat deze beperking voortkomt uit de feature-voorspellingsbeperkingen van EAGLE. In dit artikel introduceren we EAGLE-3, dat feature-voorspelling verlaat ten gunste van directe token-voorspelling en de afhankelijkheid van top-layer features vervangt door multi-layer feature-fusie via een techniek genaamd training-time test. Deze verbeteringen verhogen de prestaties aanzienlijk en stellen het draft-model in staat om volledig te profiteren van het opschalen van trainingsdata. Onze experimenten omvatten zowel chatmodellen als redeneermodellen, geëvalueerd op vijf taken. De resultaten tonen aan dat EAGLE-3 een versnellingsratio tot 6,5x bereikt, met een verbetering van ongeveer 1,4x ten opzichte van EAGLE-2. De code is beschikbaar op https://github.com/SafeAILab/EAGLE.
Video-anomaliedetectie (VAD) is cruciaal voor videoanalyse en bewaking in computervisie. Bestaande VAD-modellen zijn echter afhankelijk van aangeleerde normale patronen, waardoor ze moeilijk toepasbaar zijn in diverse omgevingen. Gebruikers moeten daarom modellen opnieuw trainen of aparte AI-modellen ontwikkelen voor nieuwe omgevingen, wat expertise in machine learning, hoogwaardige hardware en uitgebreide datacollectie vereist. Dit beperkt de praktische bruikbaarheid van VAD. Om deze uitdagingen aan te pakken, stelt deze studie de aanpasbare video-anomaliedetectie (C-VAD) techniek en het AnyAnomaly-model voor. C-VAD beschouwt door de gebruiker gedefinieerde tekst als een abnormale gebeurtenis en detecteert frames die een gespecificeerde gebeurtenis in een video bevatten. We hebben AnyAnomaly effectief geïmplementeerd met behulp van contextbewuste visuele vraagbeantwoording zonder het grote visuele taalmodel te fine-tunen. Om de effectiviteit van het voorgestelde model te valideren, hebben we C-VAD-datasets geconstrueerd en de superioriteit van AnyAnomaly aangetoond. Bovendien toonde onze aanpak competitieve prestaties op VAD-benchmarkdatasets, waarbij state-of-the-art resultaten werden behaald op de UBnormal-dataset en andere methoden werden overtroffen in generalisatie over alle datasets. Onze code is online beschikbaar op github.com/SkiddieAhn/Paper-AnyAnomaly.
Gebruikerssimulatoren zijn cruciaal voor het nabootsen van menselijke interacties met dialoogsystemen, en ondersteunen zowel collaboratieve training als automatische evaluatie, vooral voor grote taalmodellen (LLM's). Bestaande simulatoren vertrouwen echter vaak uitsluitend op tekstuele uitingen, waarbij impliciete gebruikerskenmerken zoals persoonlijkheid, spreekstijl en doelen over het hoofd worden gezien. Daarentegen missen persona-gebaseerde methoden generaliseerbaarheid, omdat ze afhankelijk zijn van vooraf gedefinieerde profielen van bekende individuen of archetypen. Om deze uitdagingen aan te pakken, stellen we de User Simulator with Implicit Profiles (USP) voor, een raamwerk dat impliciete gebruikersprofielen afleidt uit mens-machine gesprekken en deze gebruikt om meer gepersonaliseerde en realistische dialogen te genereren. We ontwikkelen eerst een LLM-gestuurde extractor met een uitgebreid profielschema. Vervolgens verfijnen we de simulatie door middel van conditionele supervised fine-tuning en reinforcement learning met cyclusconsistentie, waarbij we deze optimaliseren op zowel het niveau van individuele uitingen als complete gesprekken. Ten slotte gebruiken we een diverse profielsampler om de verdeling van gebruikersprofielen in de echte wereld vast te leggen. Experimentele resultaten tonen aan dat USP sterke baseline-methoden overtreft op het gebied van authenticiteit en diversiteit, terwijl het vergelijkbare prestaties behaalt in consistentie. Bovendien komen dynamische multi-turn evaluaties op basis van USP sterk overeen met gangbare benchmarks, wat de effectiviteit ervan in praktijktoepassingen aantoont.