Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Onder begeleid fijnafstemmen (SFT) wordt vaak gebruikt om taalmodellen te trainen om geannoteerde antwoorden na te bootsen voor gegeven instructies. In dit artikel dagen we dit paradigma uit en stellen we Critique Fine-Tuning (CFT) voor, een strategie waarbij modellen leren kritiek te leveren op lawaaierige antwoorden in plaats van eenvoudig correcte na te bootsen. Geïnspireerd door menselijke leerprocessen die kritisch denken benadrukken, moedigt CFT diepgaande analyse en genuanceerd begrip aan - eigenschappen die vaak over het hoofd worden gezien door standaard SFT. Om de effectiviteit van CFT te valideren, construeren we een dataset van 50K monsters van WebInstruct, waarbij we GPT-4o als leraar gebruiken om kritieken te genereren in de vorm van (input=[query; lawaaierig antwoord], output=kritiek). CFT op deze dataset levert een consistente verbetering van 4-10% op ten opzichte van SFT op zes wiskundige benchmarks met verschillende basismodellen zoals Qwen2.5, Qwen2.5-Math en DeepSeek-Math. We breiden verder uit naar MetaMath en NuminaMath datasets en observeren vergelijkbare winsten ten opzichte van SFT. Opmerkelijk genoeg presteert ons Qwen2.5-Math-CFT-model - getraind op slechts 50K monsters - even goed of beter dan concurrerende modellen zoals AceMath en Qwen2.5-Math-Instruct op de meeste benchmarks, die beide meer dan 2M monsters gebruiken. Ablatiestudies tonen aan dat CFT robuust is ten opzichte van de bron van lawaaierig antwoord en het leraarmodel voor kritiek. Op basis van deze bevindingen betogen we dat op kritiek gebaseerde training een effectievere alternatief biedt om de redenering van taalmodellen te bevorderen.
We introduceren Atla Selene Mini, een state-of-the-art klein taalmodel-als-een-beoordelaar (SLMJ). Selene Mini is een algemene evaluator die de beste SLMJ's en GPT-4o-mini overtreft op algemene prestaties over 11 out-of-distribution benchmarks, die absolute scoring, classificatie en pairwise preference taken omvatten. Het is het hoogst scorende 8B generatieve model op RewardBench, waarbij sterke baselines zoals GPT-4o en gespecialiseerde beoordelaars worden overtroffen. Om dit te bereiken, ontwikkelen we een principiële datacuratiestrategie die openbare datasets aanvult met synthetisch gegenereerde kritieken en zorgt voor hoge kwaliteit door filtering en datasetablaties. We trainen ons model met een gecombineerd directe voorkeurs-optimalisatie (DPO) en begeleid fijnafstemmings (SFT) verlies, en produceren een zeer aanpasbare evaluator die uitblinkt in real-world scenario's. Selene Mini toont aanzienlijk verbeterde zero-shot overeenstemming met menselijke expertevaluaties op financiële en medische branche datasets. Het is ook robuust tegen variaties in promptformat. Voorlopige resultaten geven aan dat Selene Mini de best scorende evaluator is in een live, door de gemeenschap gedreven Judge Arena. We publiceren de modelgewichten op HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) en Ollama om brede gemeenschapsadoptie aan te moedigen.
De snelle groei van kunstmatige intelligentie (AI), met name Grote Taalmodellen (LLM's), heeft zorgen opgeworpen over de wereldwijde milieueffecten die verder gaan dan de uitstoot van broeikasgassen, en ook de fabricage van hardware en processen aan het einde van de levensduur omvatten. De ondoorzichtigheid van grote aanbieders belemmert bedrijven in hun vermogen om de milieueffecten van hun AI-gerelateerde activiteiten te beoordelen en netto-nul doelstellingen te bereiken. In dit artikel stellen we een methodologie voor om de milieueffecten van de AI-portfolio van een bedrijf te schatten, waarbij bruikbare inzichten worden geboden zonder uitgebreide expertise op het gebied van AI en Levenscyclusanalyse (LCA) noodzakelijk te maken. De resultaten bevestigen dat grote generatieve AI-modellen tot wel 4600 keer meer energie verbruiken dan traditionele modellen. Onze modelleringsbenadering, die rekening houdt met het toegenomen gebruik van AI, de efficiëntie van hardwareberekening en veranderingen in de elektriciteitsmix in lijn met IPCC-scenario's, voorspelt het elektriciteitsverbruik van AI tot 2030. Onder een scenario van hoge adoptie, gedreven door wijdverbreide adoptie van Generatieve AI en agenten die geassocieerd zijn met steeds complexere modellen en frameworks, wordt verwacht dat het elektriciteitsverbruik van AI met een factor van 24,4 zal stijgen. Het beperken van de milieueffecten van Generatieve AI tegen 2030 vereist gecoördineerde inspanningen over de gehele AI-waardeketen. Geïsoleerde maatregelen op het gebied van hardware-efficiëntie, model-efficiëntie of verbeteringen aan het elektriciteitsnet alleen zijn onvoldoende. Wij pleiten voor gestandaardiseerde milieubeoordelingskaders, meer transparantie van alle actoren in de waardeketen en de invoering van een "Return on Environment" metric om de ontwikkeling van AI in lijn te brengen met netto-nul doelstellingen.
Image-based virtual try-on (VTON) heeft als doel een virtueel pasresultaat te genereren door een kledingstuk van invoer over te brengen naar een afbeelding van een doelpersoon. De schaarste aan gekoppelde kleding-modelgegevens maakt het echter uitdagend voor bestaande methoden om een hoge generalisatie en kwaliteit in VTON te bereiken. Ook beperkt het de mogelijkheid om maskervrije pasbeurten te genereren. Om het probleem van de gegevensschaarste aan te pakken, maken benaderingen zoals Stable Garment en MMTryon gebruik van een synthetische gegevensstrategie, waardoor effectief de hoeveelheid gekoppelde gegevens aan de modelzijde wordt verhoogd. Bestaande methoden zijn echter doorgaans beperkt tot het uitvoeren van specifieke pas-taken en missen gebruiksvriendelijkheid. Om de generalisatie en controleerbaarheid van VTON-generatie te verbeteren, stellen we Any2AnyTryon voor, die pasresultaten kan genereren op basis van verschillende tekstuele instructies en modelkledingafbeeldingen om aan verschillende behoeften te voldoen, zonder afhankelijk te zijn van maskers, poses of andere voorwaarden. Specifiek construeren we eerst de virtuele pas-dataset LAION-Garment, de grootste bekende open-source kleding-pas-dataset. Vervolgens introduceren we adaptieve positie-embedding, waardoor het model bevredigende geklede modelafbeeldingen of kledingafbeeldingen kan genereren op basis van invoerafbeeldingen van verschillende formaten en categorieën, wat de generalisatie en controleerbaarheid van VTON-generatie aanzienlijk verbetert. In onze experimenten tonen we de effectiviteit van onze Any2AnyTryon en vergelijken we deze met bestaande methoden. De resultaten tonen aan dat Any2AnyTryon flexibele, controleerbare en hoogwaardige op afbeeldingen gebaseerde virtuele pasgeneratie mogelijk maakt.
In dit artikel onderzoeken we hoe goed mensen tekst kunnen detecteren die is gegenereerd door commerciële taalmodel-gebaseerde modellen (GPT-4o, Claude, o1). We huren annotators in om 300 Engelstalige non-fictie artikelen te lezen, deze te labelen als door mensen geschreven of door AI gegenereerd, en paragraaf-lange verklaringen te geven voor hun beslissingen. Onze experimenten tonen aan dat annotators die vaak LLMs gebruiken voor schrijftaken uitblinken in het detecteren van door AI gegenereerde tekst, zelfs zonder gespecialiseerde training of feedback. Sterker nog, de meerderheidsstem van vijf van zulke "expert" annotators classificeert slechts 1 van de 300 artikelen verkeerd, aanzienlijk beter presterend dan de meeste commerciële en open-source detectoren die we hebben geëvalueerd, zelfs in aanwezigheid van ontwijkingsstrategieën zoals parafraseren en humanisering. Kwalitatieve analyse van de vrije tekstverklaringen van de experts laat zien dat ze zwaar leunen op specifieke lexiconaanwijzingen ('AI-vocabulaire'), maar ook complexere fenomenen in de tekst oppikken (bijv. formaliteit, originaliteit, duidelijkheid) die uitdagend zijn om te beoordelen voor automatische detectoren. We stellen onze geannoteerde dataset en code beschikbaar om toekomstig onderzoek naar zowel menselijke als geautomatiseerde detectie van door AI gegenereerde tekst te stimuleren.
Grote Taalmodellen (LLM's) zijn een integraal onderdeel geworden van ons dagelijks leven. Ze brengen echter bepaalde risico's met zich mee, waaronder die de privacy van individuen kunnen schaden, vooroordelen in stand houden en desinformatie verspreiden. Deze risico's benadrukken de noodzaak van robuuste veiligheidsmechanismen, ethische richtlijnen en grondige testen om ervoor te zorgen dat ze verantwoord worden ingezet. Veiligheid van LLM's is een essentiële eigenschap die grondig getest moet worden voordat het model wordt ingezet en toegankelijk wordt gemaakt voor de algemene gebruikers. Dit artikel rapporteert de ervaring met externe veiligheidstesten uitgevoerd door onderzoekers van de Universiteit van Mondragon en de Universiteit van Sevilla op OpenAI's nieuwe o3-mini LLM als onderdeel van het vroegtijdige toegang programma voor veiligheidstesten van OpenAI. In het bijzonder passen we onze tool, ASTRAL, toe om automatisch en systematisch actuele onveilige testinputs (d.w.z. prompts) te genereren die ons helpen om verschillende veiligheidscategorieën van LLM's te testen en te beoordelen. We genereren en voeren automatisch in totaal 10.080 onveilige testinputs uit op een vroege o3-mini bètaversie. Na handmatige verificatie van de door ASTRAL als onveilig geclassificeerde testgevallen, identificeren we in totaal 87 daadwerkelijke gevallen van onveilig gedrag van LLM's. We belichten belangrijke inzichten en bevindingen die zijn blootgelegd tijdens de externe testfase voor implementatie van de nieuwste LLM van OpenAI.
Recent onderzoek toont aan dat Grote Taalmodellen (LLMs) kwetsbaar zijn voor schadelijke fine-tuning aanvallen - modellen verliezen hun veiligheidsuitlijningsvermogen na fine-tuning op een paar schadelijke voorbeelden. Voor risicovermindering wordt doorgaans een vangrail gebruikt om schadelijke voorbeelden uit te filteren vóór de fine-tuning. Door het ontwerpen van een nieuwe red-teaming methode laten we in dit artikel zien dat het puur vertrouwen op de matiging van de vangrail voor gegevensfiltratie niet betrouwbaar is. Onze voorgestelde aanvalsmethode, genaamd Virus, omzeilt gemakkelijk de vangrailmatiging door de schadelijke gegevens lichtjes aan te passen. Experimentele resultaten tonen aan dat de schadelijke gegevens geoptimaliseerd door Virus niet detecteerbaar zijn door de vangrail met een lekkageratio tot 100%, en tegelijkertijd superieure aanvalprestaties kunnen behalen. Tenslotte is de belangrijkste boodschap die we via dit artikel willen overbrengen: het is roekeloos om de vangrailmatiging te beschouwen als een laatste strohalm tegen schadelijke fine-tuning aanvallen, aangezien het de inherente veiligheidskwestie van de vooraf getrainde LLMs niet kan oplossen. Onze code is beschikbaar op https://github.com/git-disl/Virus