Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Überwachtes Feinabstimmung (SFT) wird häufig verwendet, um Sprachmodelle darauf zu trainieren, annotierte Antworten für gegebene Anweisungen zu imitieren. In diesem Paper fordern wir dieses Paradigma heraus und schlagen Kritik-Feinabstimmung (CFT) vor, eine Strategie, bei der Modelle lernen, fehlerhafte Antworten zu kritisieren, anstatt einfach korrekte zu imitieren. Inspiriert von menschlichen Lernprozessen, die kritisches Denken betonen, fördert CFT eine tiefere Analyse und nuancierteres Verständnis - Eigenschaften, die oft von Standard-SFT übersehen werden. Zur Validierung der Wirksamkeit von CFT erstellen wir einen Datensatz mit 50.000 Beispielen aus WebInstruct, wobei GPT-4o als Lehrer verwendet wird, um Kritiken in Form von (Eingabe=[Abfrage; fehlerhafte Antwort], Ausgabe=Kritik) zu generieren. CFT auf diesem Datensatz führt zu einer konsistenten Verbesserung von 4-10% gegenüber SFT auf sechs Mathe-Benchmarks mit verschiedenen Basismodellen wie Qwen2.5, Qwen2.5-Math und DeepSeek-Math. Wir erweitern weiter zu MetaMath und NuminaMath Datensätzen und beobachten ähnliche Verbesserungen gegenüber SFT. Bemerkenswert ist, dass unser Qwen2.5-Math-CFT-Modell, das nur mit 50.000 Beispielen trainiert wurde, mit oder übertrifft Wettbewerbsmodelle wie AceMath und Qwen2.5-Math-Instruct auf den meisten Benchmarks, die jeweils über 2 Millionen Beispiele verwenden. Ablationsstudien zeigen, dass CFT robust gegenüber der Quelle der fehlerhaften Antwort und dem Lehrerkritikmodell ist. Anhand dieser Ergebnisse argumentieren wir, dass ein auf Kritik basierendes Training eine effektivere Alternative bietet, um das Denken von Sprachmodellen voranzutreiben.
Wir stellen Atla Selene Mini vor, ein hochmodernes kleines Sprachmodell-als-Richter (SLMJ). Selene Mini ist ein allgemeiner Evaluierer, der die besten SLMJs und GPT-4o-mini in der Gesamtleistung übertrifft, und zwar über 11 Out-of-Distribution-Benchmarks hinweg, die absolute Bewertung, Klassifizierung und paarweise Präferenzaufgaben umfassen. Es handelt sich um das leistungsstärkste 8B-generative Modell auf RewardBench, das starke Baselines wie GPT-4o und spezialisierte Richter übertrifft. Um dies zu erreichen, entwickeln wir eine fundierte Datenkuratierungsstrategie, die öffentliche Datensätze mit synthetisch generierten Kritiken erweitert und durch Filterung und Datensatz-Ablationen eine hohe Qualität sicherstellt. Wir trainieren unser Modell mit einem kombinierten direkten Präferenzoptimierungs- (DPO) und überwachten Feinabstimmungs- (SFT) Verlust und erstellen einen äußerst anpassungsfähigen Evaluierer, der in realen Szenarien herausragende Leistungen erbringt. Selene Mini zeigt dramatisch verbesserte Übereinstimmung ohne vorheriges Training mit menschlichen Expertenbewertungen auf Finanz- und medizinischen Branchendatensätzen. Es ist auch robust gegenüber Variationen im Eingabeformat. Vorläufige Ergebnisse deuten darauf hin, dass Selene Mini der bestplatzierte Evaluierer in einer live, community-basierten Richter-Arena ist. Wir veröffentlichen die Modellgewichte auf HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) und Ollama, um eine weit verbreitete Community-Adoption zu fördern.
Das rasante Wachstum der künstlichen Intelligenz (KI), insbesondere großer Sprachmodelle (LLMs), hat Bedenken hinsichtlich ihres globalen Umwelteinflusses aufgeworfen, der über Treibhausgasemissionen hinausgeht und die Berücksichtigung von Hardwareherstellung und End-of-Life-Prozessen einschließt. Die Undurchsichtigkeit der großen Anbieter behindert die Fähigkeiten von Unternehmen, ihre KI-bezogenen Umweltauswirkungen zu bewerten und Netto-Null-Ziele zu erreichen. In diesem Artikel schlagen wir eine Methodik vor, um den Umwelteinfluss des KI-Portfolios eines Unternehmens abzuschätzen, um handlungsorientierte Erkenntnisse zu liefern, ohne umfangreiche KI- und Lebenszyklusanalyse (LCA) Expertise zu erfordern. Die Ergebnisse bestätigen, dass große generative KI-Modelle bis zu 4600-mal mehr Energie verbrauchen als traditionelle Modelle. Unser Modellierungsansatz, der die zunehmende KI-Nutzung, die Hardware-Rechenleistungseffizienz und Veränderungen im Strommix gemäß IPCC-Szenarien berücksichtigt, prognostiziert den KI-Stromverbrauch bis 2030. Unter einem Szenario hoher Übernahme, angetrieben durch weit verbreitete Generative KI und Agentenübernahme, die mit zunehmend komplexen Modellen und Rahmenbedingungen verbunden sind, wird erwartet, dass der KI-Stromverbrauch um den Faktor 24,4 steigt. Die Minderung des Umwelteinflusses von Generative KI bis 2030 erfordert koordinierte Anstrengungen entlang der KI-Wertschöpfungskette. Einzelne Maßnahmen zur Verbesserung der Hardwareeffizienz, Modell-Effizienz oder Netzverbesserungen allein sind unzureichend. Wir setzen uns für standardisierte Umweltbewertungsrahmen, größere Transparenz aller Akteure der Wertschöpfungskette und die Einführung einer "Return on Environment"-Kennzahl ein, um die KI-Entwicklung mit Netto-Null-Zielen in Einklang zu bringen.
Die bildbasierte virtuelle Anprobe (VTON) zielt darauf ab, ein virtuelles Anprobenergebnis zu erzeugen, indem ein Eingangskleidungsstück auf das Bild einer Zielperson übertragen wird. Die Knappheit von gepaarten Kleidungsstück-Modelldaten erschwert es jedoch den bestehenden Methoden, eine hohe Verallgemeinerung und Qualität in VTON zu erreichen. Dies begrenzt auch die Fähigkeit, maskenfreie Anproben zu generieren. Um das Problem der Datenknappheit anzugehen, verwenden Ansätze wie Stable Garment und MMTryon eine synthetische Datenstrategie, um die Menge an gepaarten Daten auf der Modellseite effektiv zu erhöhen. Allerdings sind bestehende Methoden in der Regel auf bestimmte Anprobenaufgaben beschränkt und mangelt es an Benutzerfreundlichkeit. Um die Verallgemeinerung und Steuerbarkeit der VTON-Generierung zu verbessern, schlagen wir Any2AnyTryon vor, das Anprobenergebnisse auf der Grundlage verschiedener textueller Anweisungen und Modellkleidungsbilder generieren kann, um verschiedenen Anforderungen gerecht zu werden, ohne auf Masken, Posen oder andere Bedingungen angewiesen zu sein. Konkret konstruieren wir zunächst den virtuellen Anprobendatensatz LAION-Garment, den größten bekannten Open-Source-Kleidungsstück-Anprobendatensatz. Anschließend führen wir adaptive Positionsembedding ein, das es dem Modell ermöglicht, zufriedenstellende angezogene Modellbilder oder Kleidungsbilder basierend auf Eingabebildern unterschiedlicher Größen und Kategorien zu generieren und somit die Verallgemeinerung und Steuerbarkeit der VTON-Generierung signifikant zu verbessern. In unseren Experimenten zeigen wir die Wirksamkeit unseres Any2AnyTryon und vergleichen es mit bestehenden Methoden. Die Ergebnisse zeigen, dass Any2AnyTryon eine flexible, steuerbare und hochwertige bildbasierte virtuelle Anprobengenerierung ermöglicht.
In diesem Paper untersuchen wir, wie gut Menschen Texte erkennen können, die von kommerziellen LLMs (GPT-4o, Claude, o1) generiert wurden. Wir beauftragen Annotatoren, 300 Sachartikel auf Englisch zu lesen, sie entweder als von Menschen geschrieben oder von KI generiert zu kennzeichnen und Abschnittserklärungen für ihre Entscheidungen zu liefern. Unsere Experimente zeigen, dass Annotatoren, die häufig LLMs für Schreibaufgaben verwenden, hervorragend darin sind, KI-generierte Texte zu erkennen, selbst ohne spezielles Training oder Feedback. Tatsächlich klassifiziert die Mehrheitsentscheidung unter fünf solcher "Experten"-Annotatoren nur 1 von 300 Artikeln falsch, was die meisten kommerziellen und Open-Source-Detektoren, die wir bewertet haben, signifikant übertrifft, selbst in Gegenwart von Ausweichmanövern wie Umschreiben und Humanisierung. Die qualitative Analyse der freiformen Erklärungen der Experten zeigt, dass sie zwar stark auf spezifische lexikalische Hinweise ('KI-Vokabular') angewiesen sind, aber auch komplexere Phänomene im Text erfassen (z. B. Formalität, Originalität, Klarheit), die für automatische Detektoren herausfordernd sind. Wir veröffentlichen unseren annotierten Datensatz und Code, um zukünftige Forschung sowohl zur menschlichen als auch zur automatisierten Erkennung von KI-generierten Texten anzustoßen.
Große Sprachmodelle (LLMs) sind zu einem integralen Bestandteil unseres täglichen Lebens geworden. Allerdings bringen sie bestimmte Risiken mit sich, darunter solche, die die Privatsphäre von Personen beeinträchtigen, Vorurteile verstärken und Fehlinformationen verbreiten können. Diese Risiken unterstreichen die Notwendigkeit robuster Sicherheitsmechanismen, ethischer Leitlinien und gründlicher Tests, um eine verantwortungsbewusste Bereitstellung sicherzustellen. Die Sicherheit von LLMs ist eine Schlüsseleigenschaft, die vor der Bereitstellung des Modells und dem Zugang für allgemeine Benutzer gründlich getestet werden muss. In diesem Papier wird die externe Sicherheitsprüfungserfahrung berichtet, die von Forschern der Universität Mondragon und der Universität Sevilla am neuen o3-mini LLM von OpenAI im Rahmen des Frühzugriffsprogramms für Sicherheitstests von OpenAI durchgeführt wurde. Insbesondere wenden wir unser Tool, ASTRAL, an, um automatisch und systematisch aktuelle unsichere Testeingaben (d.h. Aufforderungen) zu generieren, die uns helfen, verschiedene Sicherheitskategorien von LLMs zu testen und zu bewerten. Wir generieren und führen insgesamt 10.080 unsichere Testeingaben auf einer frühen o3-mini Beta-Version automatisch aus. Nach manueller Überprüfung der von ASTRAL als unsicher eingestuften Testfälle identifizieren wir insgesamt 87 tatsächliche Fälle unsicherem Verhalten von LLMs. Wir heben wichtige Erkenntnisse und Ergebnisse hervor, die während der externen Testphase vor der Bereitstellung des neuesten LLM von OpenAI aufgedeckt wurden.
Neueste Forschungen zeigen, dass große Sprachmodelle (Large Language Models, LLMs) anfällig für schädliche Feinabstimmungsangriffe sind - Modelle verlieren ihre Sicherheitsausrichtungsfähigkeit nach der Feinabstimmung anhand einiger schädlicher Beispiele. Zur Risikominderung wird typischerweise eine Sicherheitsvorrichtung verwendet, um schädliche Beispiele vor der Feinabstimmung herauszufiltern. Durch die Entwicklung einer neuen Red-Teaming-Methode zeigen wir in diesem Papier, dass es nicht zuverlässig ist, sich ausschließlich auf die Sicherheitsvorrichtung zur Datenauswahl zu verlassen. Unsere vorgeschlagene Angriffsmethode, genannt Virus, umgeht die Sicherheitsvorrichtung mühelos, indem sie die schädlichen Daten geringfügig modifiziert. Experimentelle Ergebnisse zeigen, dass die durch Virus optimierten schädlichen Daten mit einer Undichtigkeitsrate von bis zu 100\% für die Sicherheitsvorrichtung nicht erkennbar sind und gleichzeitig eine überlegene Angriffsleistung erzielen können. Abschließend ist die zentrale Botschaft, die wir in diesem Papier vermitteln möchten, dass es fahrlässig ist, die Sicherheitsvorrichtung als letzten Ausweg gegen schädliche Feinabstimmungsangriffe zu betrachten, da sie das inhärente Sicherheitsproblem der vorab trainierten LLMs nicht lösen kann. Unser Code ist verfügbar unter https://github.com/git-disl/Virus