AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Kritiek Fine-Tuning: Leren om kritiek te geven is effectiever dan leren imiteren.
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

Onder begeleid fijnafstemmen (SFT) wordt vaak gebruikt om taalmodellen te trainen om geannoteerde antwoorden na te bootsen voor gegeven instructies. In dit artikel dagen we dit paradigma uit en stellen we Critique Fine-Tuning (CFT) voor, een strategie waarbij modellen leren kritiek te leveren op lawaaierige antwoorden in plaats van eenvoudig correcte na te bootsen. Geïnspireerd door menselijke leerprocessen die kritisch denken benadrukken, moedigt CFT diepgaande analyse en genuanceerd begrip aan - eigenschappen die vaak over het hoofd worden gezien door standaard SFT. Om de effectiviteit van CFT te valideren, construeren we een dataset van 50K monsters van WebInstruct, waarbij we GPT-4o als leraar gebruiken om kritieken te genereren in de vorm van (input=[query; lawaaierig antwoord], output=kritiek). CFT op deze dataset levert een consistente verbetering van 4-10% op ten opzichte van SFT op zes wiskundige benchmarks met verschillende basismodellen zoals Qwen2.5, Qwen2.5-Math en DeepSeek-Math. We breiden verder uit naar MetaMath en NuminaMath datasets en observeren vergelijkbare winsten ten opzichte van SFT. Opmerkelijk genoeg presteert ons Qwen2.5-Math-CFT-model - getraind op slechts 50K monsters - even goed of beter dan concurrerende modellen zoals AceMath en Qwen2.5-Math-Instruct op de meeste benchmarks, die beide meer dan 2M monsters gebruiken. Ablatiestudies tonen aan dat CFT robuust is ten opzichte van de bron van lawaaierig antwoord en het leraarmodel voor kritiek. Op basis van deze bevindingen betogen we dat op kritiek gebaseerde training een effectievere alternatief biedt om de redenering van taalmodellen te bevorderen.

Atla Selene Mini: Een Algemeen Doel Evaluatiemodel
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

We introduceren Atla Selene Mini, een state-of-the-art klein taalmodel-als-een-beoordelaar (SLMJ). Selene Mini is een algemene evaluator die de beste SLMJ's en GPT-4o-mini overtreft op algemene prestaties over 11 out-of-distribution benchmarks, die absolute scoring, classificatie en pairwise preference taken omvatten. Het is het hoogst scorende 8B generatieve model op RewardBench, waarbij sterke baselines zoals GPT-4o en gespecialiseerde beoordelaars worden overtroffen. Om dit te bereiken, ontwikkelen we een principiële datacuratiestrategie die openbare datasets aanvult met synthetisch gegenereerde kritieken en zorgt voor hoge kwaliteit door filtering en datasetablaties. We trainen ons model met een gecombineerd directe voorkeurs-optimalisatie (DPO) en begeleid fijnafstemmings (SFT) verlies, en produceren een zeer aanpasbare evaluator die uitblinkt in real-world scenario's. Selene Mini toont aanzienlijk verbeterde zero-shot overeenstemming met menselijke expertevaluaties op financiële en medische branche datasets. Het is ook robuust tegen variaties in promptformat. Voorlopige resultaten geven aan dat Selene Mini de best scorende evaluator is in een live, door de gemeenschap gedreven Judge Arena. We publiceren de modelgewichten op HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) en Ollama om brede gemeenschapsadoptie aan te moedigen.

Het verkennen van het duurzame schalen van het AI dilemma: Een projectieve studie naar de milieueffecten van AI van bedrijven
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

De snelle groei van kunstmatige intelligentie (AI), met name Grote Taalmodellen (LLM's), heeft zorgen opgeworpen over de wereldwijde milieueffecten die verder gaan dan de uitstoot van broeikasgassen, en ook de fabricage van hardware en processen aan het einde van de levensduur omvatten. De ondoorzichtigheid van grote aanbieders belemmert bedrijven in hun vermogen om de milieueffecten van hun AI-gerelateerde activiteiten te beoordelen en netto-nul doelstellingen te bereiken. In dit artikel stellen we een methodologie voor om de milieueffecten van de AI-portfolio van een bedrijf te schatten, waarbij bruikbare inzichten worden geboden zonder uitgebreide expertise op het gebied van AI en Levenscyclusanalyse (LCA) noodzakelijk te maken. De resultaten bevestigen dat grote generatieve AI-modellen tot wel 4600 keer meer energie verbruiken dan traditionele modellen. Onze modelleringsbenadering, die rekening houdt met het toegenomen gebruik van AI, de efficiëntie van hardwareberekening en veranderingen in de elektriciteitsmix in lijn met IPCC-scenario's, voorspelt het elektriciteitsverbruik van AI tot 2030. Onder een scenario van hoge adoptie, gedreven door wijdverbreide adoptie van Generatieve AI en agenten die geassocieerd zijn met steeds complexere modellen en frameworks, wordt verwacht dat het elektriciteitsverbruik van AI met een factor van 24,4 zal stijgen. Het beperken van de milieueffecten van Generatieve AI tegen 2030 vereist gecoördineerde inspanningen over de gehele AI-waardeketen. Geïsoleerde maatregelen op het gebied van hardware-efficiëntie, model-efficiëntie of verbeteringen aan het elektriciteitsnet alleen zijn onvoldoende. Wij pleiten voor gestandaardiseerde milieubeoordelingskaders, meer transparantie van alle actoren in de waardeketen en de invoering van een "Return on Environment" metric om de ontwikkeling van AI in lijn te brengen met netto-nul doelstellingen.

Any2AnyTryon: Het benutten van Adaptieve Positie-Embeddings voor Veelzijdige Virtuele Kledingtaken
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

Image-based virtual try-on (VTON) heeft als doel een virtueel pasresultaat te genereren door een kledingstuk van invoer over te brengen naar een afbeelding van een doelpersoon. De schaarste aan gekoppelde kleding-modelgegevens maakt het echter uitdagend voor bestaande methoden om een hoge generalisatie en kwaliteit in VTON te bereiken. Ook beperkt het de mogelijkheid om maskervrije pasbeurten te genereren. Om het probleem van de gegevensschaarste aan te pakken, maken benaderingen zoals Stable Garment en MMTryon gebruik van een synthetische gegevensstrategie, waardoor effectief de hoeveelheid gekoppelde gegevens aan de modelzijde wordt verhoogd. Bestaande methoden zijn echter doorgaans beperkt tot het uitvoeren van specifieke pas-taken en missen gebruiksvriendelijkheid. Om de generalisatie en controleerbaarheid van VTON-generatie te verbeteren, stellen we Any2AnyTryon voor, die pasresultaten kan genereren op basis van verschillende tekstuele instructies en modelkledingafbeeldingen om aan verschillende behoeften te voldoen, zonder afhankelijk te zijn van maskers, poses of andere voorwaarden. Specifiek construeren we eerst de virtuele pas-dataset LAION-Garment, de grootste bekende open-source kleding-pas-dataset. Vervolgens introduceren we adaptieve positie-embedding, waardoor het model bevredigende geklede modelafbeeldingen of kledingafbeeldingen kan genereren op basis van invoerafbeeldingen van verschillende formaten en categorieën, wat de generalisatie en controleerbaarheid van VTON-generatie aanzienlijk verbetert. In onze experimenten tonen we de effectiviteit van onze Any2AnyTryon en vergelijken we deze met bestaande methoden. De resultaten tonen aan dat Any2AnyTryon flexibele, controleerbare en hoogwaardige op afbeeldingen gebaseerde virtuele pasgeneratie mogelijk maakt.

Mensen die ChatGPT vaak gebruiken voor schrijftaken zijn nauwkeurige en robuuste detectoren van door AI gegenereerde tekst.
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

In dit artikel onderzoeken we hoe goed mensen tekst kunnen detecteren die is gegenereerd door commerciële taalmodel-gebaseerde modellen (GPT-4o, Claude, o1). We huren annotators in om 300 Engelstalige non-fictie artikelen te lezen, deze te labelen als door mensen geschreven of door AI gegenereerd, en paragraaf-lange verklaringen te geven voor hun beslissingen. Onze experimenten tonen aan dat annotators die vaak LLMs gebruiken voor schrijftaken uitblinken in het detecteren van door AI gegenereerde tekst, zelfs zonder gespecialiseerde training of feedback. Sterker nog, de meerderheidsstem van vijf van zulke "expert" annotators classificeert slechts 1 van de 300 artikelen verkeerd, aanzienlijk beter presterend dan de meeste commerciële en open-source detectoren die we hebben geëvalueerd, zelfs in aanwezigheid van ontwijkingsstrategieën zoals parafraseren en humanisering. Kwalitatieve analyse van de vrije tekstverklaringen van de experts laat zien dat ze zwaar leunen op specifieke lexiconaanwijzingen ('AI-vocabulaire'), maar ook complexere fenomenen in de tekst oppikken (bijv. formaliteit, originaliteit, duidelijkheid) die uitdagend zijn om te beoordelen voor automatische detectoren. We stellen onze geannoteerde dataset en code beschikbaar om toekomstig onderzoek naar zowel menselijke als geautomatiseerde detectie van door AI gegenereerde tekst te stimuleren.

Vroegtijdige externe veiligheidstesten van OpenAI's o3-mini: Inzichten uit de evaluatie vóór implementatie
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

Grote Taalmodellen (LLM's) zijn een integraal onderdeel geworden van ons dagelijks leven. Ze brengen echter bepaalde risico's met zich mee, waaronder die de privacy van individuen kunnen schaden, vooroordelen in stand houden en desinformatie verspreiden. Deze risico's benadrukken de noodzaak van robuuste veiligheidsmechanismen, ethische richtlijnen en grondige testen om ervoor te zorgen dat ze verantwoord worden ingezet. Veiligheid van LLM's is een essentiële eigenschap die grondig getest moet worden voordat het model wordt ingezet en toegankelijk wordt gemaakt voor de algemene gebruikers. Dit artikel rapporteert de ervaring met externe veiligheidstesten uitgevoerd door onderzoekers van de Universiteit van Mondragon en de Universiteit van Sevilla op OpenAI's nieuwe o3-mini LLM als onderdeel van het vroegtijdige toegang programma voor veiligheidstesten van OpenAI. In het bijzonder passen we onze tool, ASTRAL, toe om automatisch en systematisch actuele onveilige testinputs (d.w.z. prompts) te genereren die ons helpen om verschillende veiligheidscategorieën van LLM's te testen en te beoordelen. We genereren en voeren automatisch in totaal 10.080 onveilige testinputs uit op een vroege o3-mini bètaversie. Na handmatige verificatie van de door ASTRAL als onveilig geclassificeerde testgevallen, identificeren we in totaal 87 daadwerkelijke gevallen van onveilig gedrag van LLM's. We belichten belangrijke inzichten en bevindingen die zijn blootgelegd tijdens de externe testfase voor implementatie van de nieuwste LLM van OpenAI.

Virus: Schadelijke Fine-tuning Aanval voor Grote Taalmodellen om Beveiligingsmaatregelen te Omzeilen
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

Recent onderzoek toont aan dat Grote Taalmodellen (LLMs) kwetsbaar zijn voor schadelijke fine-tuning aanvallen - modellen verliezen hun veiligheidsuitlijningsvermogen na fine-tuning op een paar schadelijke voorbeelden. Voor risicovermindering wordt doorgaans een vangrail gebruikt om schadelijke voorbeelden uit te filteren vóór de fine-tuning. Door het ontwerpen van een nieuwe red-teaming methode laten we in dit artikel zien dat het puur vertrouwen op de matiging van de vangrail voor gegevensfiltratie niet betrouwbaar is. Onze voorgestelde aanvalsmethode, genaamd Virus, omzeilt gemakkelijk de vangrailmatiging door de schadelijke gegevens lichtjes aan te passen. Experimentele resultaten tonen aan dat de schadelijke gegevens geoptimaliseerd door Virus niet detecteerbaar zijn door de vangrail met een lekkageratio tot 100%, en tegelijkertijd superieure aanvalprestaties kunnen behalen. Tenslotte is de belangrijkste boodschap die we via dit artikel willen overbrengen: het is roekeloos om de vangrailmatiging te beschouwen als een laatste strohalm tegen schadelijke fine-tuning aanvallen, aangezien het de inherente veiligheidskwestie van de vooraf getrainde LLMs niet kan oplossen. Onze code is beschikbaar op https://github.com/git-disl/Virus

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Kritiek Fine-Tuning: Leren om kritiek te geven is effectiever dan leren imiteren.
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

Atla Selene Mini: Een Algemeen Doel Evaluatiemodel
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

Het verkennen van het duurzame schalen van het AI dilemma: Een projectieve studie naar de milieueffecten van AI van bedrijven
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

Any2AnyTryon: Het benutten van Adaptieve Positie-Embeddings voor Veelzijdige Virtuele Kledingtaken
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

Mensen die ChatGPT vaak gebruiken voor schrijftaken zijn nauwkeurige en robuuste detectoren van door AI gegenereerde tekst.
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

Vroegtijdige externe veiligheidstesten van OpenAI's o3-mini: Inzichten uit de evaluatie vóór implementatie
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

Virus: Schadelijke Fine-tuning Aanval voor Grote Taalmodellen om Beveiligingsmaatregelen te Omzeilen
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu