Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Nu LLM's steeds meer invloed hebben op veiligheidskritieke toepassingen, blijft het waarborgen van hun veiligheid met behulp van veiligheidsmaatregelen een belangrijke uitdaging. Dit artikel stelt GuardReasoner voor, een nieuwe bescherming voor LLM's, door het bewakingsmodel te begeleiden om te leren redeneren. Concreet creëren we eerst de GuardReasonerTrain dataset, die bestaat uit 127K voorbeelden met 460K gedetailleerde redeneringsstappen. Vervolgens introduceren we redeneer-SFT om het redeneervermogen van bewakingsmodellen te ontsluiten. Daarnaast presenteren we moeilijke voorbeeld-DPO om hun redeneervermogen verder te versterken. Op deze manier behaalt GuardReasoner betere prestaties, verklaringsmogelijkheden en generaliseerbaarheid. Uitgebreide experimenten en analyses op 13 benchmarks van 3 bewakingsopdrachten tonen zijn superioriteit aan. Opmerkelijk genoeg overtreft GuardReasoner 8B GPT-4o+CoT met 5.74% en LLaMA Guard 3 8B met 20.84% F1-score gemiddeld. We stellen de trainingsgegevens, code en modellen met verschillende schalen (1B, 3B, 8B) van GuardReasoner beschikbaar op: https://github.com/yueliu1999/GuardReasoner/.
Grote taalmodellen (LLM's) zoals OpenAI's o1 hebben opmerkelijke vaardigheden aangetoond in complexe redeneertaken door testtijdcomputatie te schalen en mensachtig diep denken te vertonen. We identificeren echter een fenomeen dat we 'onderdenken' noemen, waarbij o1-achtige LLM's vaak wisselen tussen verschillende redenerende gedachten zonder veelbelovende paden voldoende te verkennen om tot een juiste oplossing te komen. Dit gedrag leidt tot onvoldoende diepgang van redenering en verminderde prestaties, met name bij uitdagende wiskundige problemen. Om dit probleem systematisch te analyseren, voeren we experimenten uit op drie uitdagende testsets en twee representatieve open-source o1-achtige modellen, waarbij blijkt dat frequent schakelen tussen gedachten correleert met onjuiste antwoorden. We introduceren een nieuwe maatstaf om onderdenken te kwantificeren door de token-efficiëntie in incorrecte antwoorden te meten. Om onderdenken aan te pakken, stellen we een decoderingsstrategie voor met een 'thought switching penalty' (TIP) die vroegtijdige overgangen tussen gedachten ontmoedigt en dieper onderzoek van elk redeneerpad aanmoedigt. Experimentele resultaten tonen aan dat onze aanpak de nauwkeurigheid verbetert over uitdagende datasets zonder dat modelfinetuning nodig is. Onze bevindingen dragen bij aan het begrijpen van redeneerinefficiënties in o1-achtige LLM's en bieden een praktische oplossing om hun probleemoplossend vermogen te verbeteren.
Het trainen van grote taalmodellen (LLM's) wordt doorgaans verdeeld over een groot aantal versnellers om de trainingsduur te verkorten. Aangezien interne toestanden en parametergradiënten bij elke enkele gradiëntstap moeten worden uitgewisseld, moeten alle apparaten zich op dezelfde locatie bevinden met behulp van communicatielinks met lage latentie en hoge bandbreedte om de vereiste hoge hoeveelheid uitgewisselde bits te ondersteunen. Onlangs hebben gedistribueerde algoritmes zoals DiLoCo deze co-locatiebeperking versoepeld: versnellers kunnen worden gegroepeerd in "werkers", waar synchronisaties tussen werkers slechts af en toe plaatsvinden. Dit betekent op zijn beurt dat werkers verbonden kunnen zijn met communicatielinks met lagere bandbreedte zonder de leerprestaties te beïnvloeden. Echter, bij deze methoden vereist communicatie tussen werkers nog steeds dezelfde piekbandbreedte als voorheen, aangezien de synchronisaties vereisen dat alle parameters worden uitgewisseld tussen alle werkers. In dit artikel verbeteren we DiLoCo op drie manieren. Ten eerste synchroniseren we alleen subsets van parameters in sequentie, in plaats van allemaal tegelijk, wat de piekbandbreedte aanzienlijk vermindert. Ten tweede staan we werkers toe om door te gaan met trainen tijdens het synchroniseren, wat de kloktijd verkort. Ten derde kwantificeren we de uitgewisselde gegevens tussen werkers, wat de bandbreedte tussen werkers verder vermindert. Door deze aanpassingen op de juiste manier te combineren, laten we experimenteel zien dat we de training van parameters op miljardenschaal kunnen verdelen en vergelijkbare kwaliteit kunnen bereiken als voorheen, maar met een bandbreedtevermindering van twee ordes van grootte.
De opkomst van DeepSeek-R1 markeert een keerpunt voor de AI-industrie in het algemeen en de LLM's in het bijzonder. De mogelijkheden ervan hebben uitstekende prestaties aangetoond op verschillende taken, waaronder creatief denken, codegeneratie, wiskunde en geautomatiseerde programmaherstel, met naar het schijnt lagere uitvoeringskosten. LLM's moeten echter voldoen aan een belangrijke kwalitatieve eigenschap, namelijk hun afstemming op veiligheid en menselijke waarden. Een duidelijke concurrent van DeepSeek-R1 is zijn Amerikaanse tegenhanger, het o3-mini model van OpenAI, dat naar verwachting hoge normen zal stellen op het gebied van prestaties, veiligheid en kosten. In dit artikel voeren we een systematische beoordeling uit van het veiligheidsniveau van zowel DeepSeek-R1 (70b versie) als OpenAI's o3-mini (bèta versie). Hiervoor maken we gebruik van onze recent uitgebrachte geautomatiseerde veiligheidstesttool, genaamd ASTRAL. Door gebruik te maken van deze tool genereren en voeren we automatisch en systematisch in totaal 1260 onveilige testinputs uit op beide modellen. Na een semi-geautomatiseerde beoordeling van de resultaten die beide LLM's hebben geleverd, geven de resultaten aan dat DeepSeek-R1 aanzienlijk onveiliger is in vergelijking met OpenAI's o3-mini. Op basis van onze evaluatie beantwoordde DeepSeek-R1 onveilig aan 11,98% van de uitgevoerde opdrachten, terwijl o3-mini slechts aan 1,19% onveilig antwoordde.
Grote Taalmodellen hebben vele intellectuele capaciteiten aan het licht gebracht. Hoewel talrijke benchmarks hun intelligentie beoordelen, is er beperkte aandacht besteed aan hun vermogen om te verkennen, een essentiële capaciteit voor het ontdekken van nieuwe informatie en het aanpassen aan nieuwe omgevingen in zowel natuurlijke als kunstmatige systemen. Het blijft onduidelijk in hoeverre Grote Taalmodellen effectief kunnen verkennen, met name in open taken. Dit onderzoek onderzoekt of Grote Taalmodellen mensen kunnen overtreffen in verkenning tijdens een open taak, met behulp van Little Alchemy 2 als paradigma, waarbij agenten elementen combineren om nieuwe te ontdekken. De resultaten tonen aan dat de meeste Grote Taalmodellen minder presteren in vergelijking met mensen, behalve het o1-model, waarbij de traditionele Grote Taalmodellen voornamelijk vertrouwen op door onzekerheid gedreven strategieën, in tegenstelling tot mensen die onzekerheid en empowerment in balans brengen. De representatieanalyse van de modellen met Schaarse Auto-encoders onthulde dat onzekerheid en keuzes worden gerepresenteerd in eerdere transformer-blokken, terwijl empowermentwaarden later worden verwerkt, waardoor Grote Taalmodellen te snel denken en voorbarige beslissingen nemen, wat effectieve verkenning belemmert. Deze bevindingen werpen licht op de beperkingen van de verkenning door Grote Taalmodellen en suggereren richtingen voor het verbeteren van hun aanpassingsvermogen.
We introduceren MedXpertQA, een zeer uitdagende en uitgebreide benchmark om expertniveau medische kennis en geavanceerde redenering te evalueren. MedXpertQA omvat 4.460 vragen die 17 specialismen en 11 lichaamssystemen bestrijken. Het bevat twee subsets, Text voor tekstevaluatie en MM voor multimodale evaluatie. Opmerkelijk is dat MM expertniveau examenvragen introduceert met diverse afbeeldingen en rijke klinische informatie, waaronder patiëntendossiers en onderzoeksresultaten, waardoor het zich onderscheidt van traditionele medische multimodale benchmarks met eenvoudige vraag-antwoordparen gegenereerd uit afbeeldingbijschriften. MedXpertQA past rigoureuze filtering en augmentatie toe om de ontoereikende moeilijkheid van bestaande benchmarks zoals MedQA aan te pakken, en neemt vragen van specialistenborden op om de klinische relevantie en volledigheid te verbeteren. We voeren gegevenssynthese uit om het risico van gegevenslekkage te verminderen en voeren meerdere rondes van expertbeoordelingen uit om nauwkeurigheid en betrouwbaarheid te waarborgen. We evalueren 16 toonaangevende modellen op MedXpertQA. Bovendien is geneeskunde diep verbonden met besluitvorming in de echte wereld, wat een rijke en representatieve omgeving biedt om redeneervaardigheden te beoordelen die verder gaan dan wiskunde en code. Met dit doel ontwikkelen we een redeneergericht subset om de beoordeling van o1-achtige modellen te vergemakkelijken.
Het post-trainen van taalmodellen (LLM), van DPO tot distillatie, kan gedrag verfijnen en nieuwe vaardigheden ontsluiten, maar de open wetenschap die deze post-trainings technieken ondersteunt, bevindt zich nog in de kinderschoenen. Een beperkende factor is de moeilijkheid van het uitvoeren van grootschalige vergelijkende analyses van modellen die synthetische data genereren en LLM-beoordelaars. Om deze kloof te dichten, introduceren we WILDCHAT-50M, de grootste openbare chatdataset tot nu toe. We breiden de bestaande WildChat dataset uit met reacties niet alleen van GPT, maar van meer dan 50 verschillende open-gewicht modellen, variërend in grootte van 0,5B tot 104B parameters. We voeren een uitgebreide vergelijkende analyse uit en tonen het potentieel van deze dataset door RE-WILD te creëren, onze eigen openbare SFT-mix, die beter presteert dan de recente Tulu-3 SFT-mix van Allen AI met slechts 40% van het aantal voorbeelden. Onze dataset, voorbeelden en code zijn beschikbaar op https://github.com/penfever/wildchat-50m.
Dit artikel presenteert SANA-1.5, een lineaire Diffusion Transformer voor efficiënte schaling in tekst-naar-afbeelding generatie. Voortbouwend op SANA-1.0 introduceren we drie belangrijke innovaties: (1) Efficiënte Trainingschaling: Een diepte-groeiparadigma dat schaling mogelijk maakt van 1,6B naar 4,8B parameters met aanzienlijk verminderde rekenbronnen, gecombineerd met een geheugenefficiënte 8-bit optimizer. (2) Model Diepte Pruning: Een techniek voor blokbelanganalyse voor efficiënte modelcompressie naar willekeurige groottes met minimaal kwaliteitsverlies. (3) Schaling op Inference-tijd: Een herhaalde bemonsteringsstrategie die berekening inruilt voor modelcapaciteit, waardoor kleinere modellen de kwaliteit van grotere modellen kunnen evenaren op inference-tijd. Met behulp van deze strategieën behaalt SANA-1.5 een tekst-afbeelding aligneringsscore van 0.72 op GenEval, die verder verbeterd kan worden naar 0.80 door inference-schaling, waarmee een nieuwe SoTA op de GenEval benchmark wordt vastgesteld. Deze innovaties maken efficiënte model schaling mogelijk binnen verschillende rekentegoeden met behoud van hoge kwaliteit, waardoor hoogwaardige afbeeldingsgeneratie toegankelijker wordt.
Het begrijpen van de fysieke wereld is een fundamentele uitdaging in embodied AI, essentieel om agenten in staat te stellen complexe taken uit te voeren en veilig te opereren in echte omgevingen. Hoewel Vision-Language Modellen (VLM's) veelbelovend zijn gebleken in redeneren en taakplanning voor embodied agenten, blijft hun vermogen om fysische fenomenen te begrijpen uiterst beperkt. Om deze kloof te dichten, introduceren we PhysBench, een uitgebreide benchmark ontworpen om de capaciteit van VLM's om de fysieke wereld te begrijpen te evalueren over een divers scala aan taken. PhysBench bevat 10.002 vermeldingen van geïnterlinieerde video-afbeelding-tekstgegevens, gecategoriseerd in vier belangrijke domeinen: fysieke objecteigenschappen, fysieke objectrelaties, begrip van fysieke scènes en op fysica gebaseerde dynamica, verder onderverdeeld in 19 subklassen en 8 onderscheidende capaciteitsdimensies. Onze uitgebreide experimenten, uitgevoerd op 75 representatieve VLM's, tonen aan dat hoewel deze modellen uitblinken in gezond verstand redeneren, ze moeite hebben met het begrijpen van de fysieke wereld -- waarschijnlijk als gevolg van het ontbreken van fysische kennis in hun trainingsgegevens en het gebrek aan ingebedde fysische aannames. Om het tekort aan te pakken, introduceren we PhysAgent, een nieuw raamwerk dat de generalisatiekracht van VLM's combineert met de gespecialiseerde expertise van vision modellen, waardoor VLM's aanzienlijk verbeterd begrip van de fysieke wereld krijgen over een verscheidenheid aan taken, inclusief een verbetering van 18,4\% op GPT-4o. Bovendien tonen onze resultaten aan dat het verbeteren van de capaciteiten van VLM's om de fysieke wereld te begrijpen embodied agents zoals MOKA kan helpen. Wij geloven dat PhysBench en PhysAgent waardevolle inzichten bieden en bijdragen aan het overbruggen van de kloof tussen VLM's en begrip van de fysieke wereld.
Hoewel veel onderzoek naar webagenten de belofte benadrukt van autonoom taken uitvoeren namens gebruikers, vallen agenten in werkelijkheid vaak tekort bij complexe taken in real-world contexten en het modelleren van gebruikersvoorkeuren. Dit biedt een kans voor mensen om samen te werken met de agent en effectief gebruik te maken van de mogelijkheden van de agent. Wij stellen CowPilot voor, een raamwerk dat autonome en mens-agent samenwerkende webnavigatie ondersteunt, en evaluatie over taaksucces en taakefficiëntie. CowPilot vermindert het aantal stappen dat mensen moeten uitvoeren door agenten voorstellen te laten doen voor de volgende stappen, terwijl gebruikers in staat zijn om te pauzeren, af te wijzen of alternatieve acties te ondernemen. Tijdens de uitvoering kunnen gebruikers hun acties afwisselen met die van de agent door suggesties te negeren of de controle van de agent te hervatten wanneer dat nodig is. We hebben casestudies uitgevoerd op vijf veelvoorkomende websites en ontdekten dat de mens-agent samenwerkingsmodus een succespercentage van 95% behaalt, waarbij mensen slechts 15,2% van de totale stappen hoeven uit te voeren. Zelfs met menselijke tussenkomst tijdens de taakuitvoering, kan de agent tot de helft van het taaksucces zelfstandig behalen. CowPilot kan dienen als een nuttige tool voor gegevensverzameling en agentevaluatie over websites, wat naar onze mening onderzoek zal mogelijk maken naar hoe gebruikers en agenten samen kunnen werken. Video-demonstraties zijn beschikbaar op https://oaishi.github.io/cowpilot.html