Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da LLMs zunehmend sicherheitskritische Anwendungen beeinflussen, bleibt die Gewährleistung ihrer Sicherheit mithilfe von Leitplanken eine zentrale Herausforderung. Dieses Papier schlägt GuardReasoner vor, eine neue Sicherheitsvorkehrung für LLMs, indem das Leitplankenmodell angeleitet wird, das Denken zu erlernen. Konkret erstellen wir zunächst den GuardReasonerTrain Datensatz, der aus 127.000 Beispielen mit 460.000 detaillierten Denkschritten besteht. Anschließend führen wir das Denk-SFT ein, um die Denkfähigkeit der Leitplankenmodelle freizuschalten. Darüber hinaus präsentieren wir das schwierige Beispiel DPO, um ihre Denkfähigkeit weiter zu stärken. Auf diese Weise erzielt GuardReasoner bessere Leistung, Erklärbarkeit und Verallgemeinerungsfähigkeit. Umfangreiche Experimente und Analysen an 13 Benchmarks von 3 Leitplankenaufgaben zeigen seine Überlegenheit. Bemerkenswert übertrifft GuardReasoner 8B GPT-4o+CoT um 5,74% und LLaMA Guard 3 8B um 20,84% F1-Score im Durchschnitt. Wir veröffentlichen die Trainingsdaten, den Code und die Modelle mit verschiedenen Skalen (1B, 3B, 8B) von GuardReasoner unter: https://github.com/yueliu1999/GuardReasoner/.
Große Sprachmodelle (LLMs) wie OpenAIs o1 haben bemerkenswerte Fähigkeiten bei komplexen Denkaufgaben gezeigt, indem sie die Rechenleistung zur Testzeit skalieren und menschenähnliches tiefes Denken zeigen. Allerdings identifizieren wir ein Phänomen, das wir als "Unterdenken" bezeichnen, bei dem o1-ähnliche LLMs häufig zwischen verschiedenen Denkansätzen wechseln, ohne vielversprechende Wege zur Erreichung einer korrekten Lösung ausreichend zu erkunden. Dieses Verhalten führt zu unzureichender Tiefe des Denkens und verringerte Leistung, insbesondere bei anspruchsvollen mathematischen Problemen. Um dieses Problem systematisch zu analysieren, führen wir Experimente an drei anspruchsvollen Testsets und zwei repräsentativen Open-Source o1-ähnlichen Modellen durch, die zeigen, dass häufiges Wechseln der Gedanken mit inkorrekten Antworten korreliert. Wir führen eine neue Metrik ein, um das Unterdenken zu quantifizieren, indem wir die Token-Effizienz bei falschen Antworten messen. Um dem Unterdenken entgegenzuwirken, schlagen wir eine Dekodierungsstrategie mit einem Gedankenwechsel-Strafmaß (TIP) vor, das vorzeitige Übergänge zwischen Denkansätzen entmutigt und eine tiefere Erkundung jedes Denkwegs fördert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Genauigkeit über anspruchsvolle Datensätze hinweg verbessert, ohne dass eine Feinabstimmung des Modells erforderlich ist. Unsere Erkenntnisse tragen dazu bei, die ineffiziente Denkweise bei o1-ähnlichen LLMs zu verstehen und bieten eine praktische Lösung zur Verbesserung ihrer Problemlösungsfähigkeiten.
Das Training großer Sprachmodelle (LLMs) wird in der Regel auf eine große Anzahl von Beschleunigern verteilt, um die Trainingszeit zu verkürzen. Da interne Zustände und Parametergradienten bei jedem einzelnen Gradientenschritt ausgetauscht werden müssen, müssen alle Geräte an einem Ort mit latenzarmen Hochgeschwindigkeitskommunikationsverbindungen platziert werden, um den erforderlichen hohen Datenaustausch zu unterstützen. In letzter Zeit haben verteilte Algorithmen wie DiLoCo diese Co-Lokationsbeschränkung gelockert: Beschleuniger können in "Arbeiter" gruppiert werden, wobei Synchronisationen zwischen den Arbeitern nur selten erfolgen. Dies bedeutet wiederum, dass die Arbeiter sich eine Verbindung mit geringerer Bandbreite leisten können, ohne die Lernqualität zu beeinträchtigen. Bei diesen Methoden erfordert die Kommunikation zwischen den Arbeitern jedoch immer noch dieselbe Spitzenbandbreite wie zuvor, da die Synchronisationen erfordern, dass alle Parameter zwischen allen Arbeitern ausgetauscht werden. In diesem Papier verbessern wir DiLoCo auf drei Arten. Erstens synchronisieren wir nur Teilgruppen von Parametern nacheinander, anstatt alle auf einmal, was die Spitzenbandbreite erheblich reduziert. Zweitens erlauben wir den Arbeitern, das Training fortzusetzen, während sie synchronisieren, was die Wanduhrzeit verkürzt. Drittens quantisieren wir die von den Arbeitern ausgetauschten Daten, was die Bandbreite zwischen den Arbeitern weiter reduziert. Durch die richtige Kombination dieser Modifikationen zeigen wir experimentell, dass wir das Training von Milliardenskalenparametern verteilen und eine ähnliche Qualität wie zuvor erreichen können, wobei jedoch die erforderliche Bandbreite um zwei Größenordnungen reduziert wird.
Der Einbruch von DeepSeek-R1 stellt einen Wendepunkt für die KI-Branche im Allgemeinen und insbesondere für die LLMs dar. Seine Fähigkeiten haben herausragende Leistungen in mehreren Aufgabenbereichen gezeigt, darunter kreatives Denken, Codegenerierung, Mathematik und automatische Programmreparatur, bei scheinbar niedrigeren Ausführungskosten. LLMs müssen jedoch eine wichtige qualitative Eigenschaft beachten, nämlich ihre Ausrichtung auf Sicherheit und menschliche Werte. Ein klarer Konkurrent von DeepSeek-R1 ist sein amerikanisches Pendant, das o3-mini-Modell von OpenAI, von dem erwartet wird, dass es hohe Standards in Bezug auf Leistung, Sicherheit und Kosten setzt. In diesem Papier führen wir eine systematische Bewertung des Sicherheitsniveaus von DeepSeek-R1 (70b-Version) und OpenAI's o3-mini (Beta-Version) durch. Hierzu verwenden wir unser kürzlich veröffentlichtes automatisiertes Sicherheitstest-Tool namens ASTRAL. Durch die Nutzung dieses Tools generieren und führen wir automatisch und systematisch insgesamt 1260 unsichere Testeingaben auf beiden Modellen aus. Nach einer halbautomatischen Bewertung der Ergebnisse, die von beiden LLMs bereitgestellt wurden, zeigen die Ergebnisse, dass DeepSeek-R1 im Vergleich zu OpenAI's o3-mini sehr unsicher ist. Basierend auf unserer Bewertung hat DeepSeek-R1 unsicher auf 11,98% der ausgeführten Aufforderungen geantwortet, während o3-mini nur auf 1,19% unsicher geantwortet hat.
Große Sprachmodelle haben viele intellektuelle Fähigkeiten entwickelt. Während zahlreiche Benchmarks ihre Intelligenz bewerten, wurde ihrer Fähigkeit zur Exploration, einer wesentlichen Fähigkeit zur Entdeckung neuer Informationen und Anpassung an neue Umgebungen in natürlichen und künstlichen Systemen, nur begrenzte Aufmerksamkeit geschenkt. Das Ausmaß, in dem große Sprachmodelle effektiv erkunden können, insbesondere bei offenen Aufgaben, bleibt unklar. Diese Studie untersucht, ob große Sprachmodelle Menschen bei der Exploration während einer offenen Aufgabe übertreffen können, wobei Little Alchemy 2 als Paradigma verwendet wird, bei dem Agenten Elemente kombinieren, um neue zu entdecken. Die Ergebnisse zeigen, dass die meisten großen Sprachmodelle im Vergleich zu Menschen unterdurchschnittlich abschneiden, mit Ausnahme des o1-Modells, wobei diese traditionellen großen Sprachmodelle hauptsächlich auf Unsicherheitsstrategien setzen, im Gegensatz zu Menschen, die Unsicherheit und Empowerment ausbalancieren. Die Repräsentationsanalyse der Modelle mit Sparse Autoencodern ergab, dass Unsicherheit und Entscheidungen in früheren Transformer-Blöcken dargestellt werden, während Empowerment-Werte später verarbeitet werden, was dazu führt, dass große Sprachmodelle zu schnell denken und voreilige Entscheidungen treffen, was die effektive Exploration behindert. Diese Erkenntnisse beleuchten die Grenzen der Exploration großer Sprachmodelle und legen Richtungen zur Verbesserung ihrer Anpassungsfähigkeit nahe.
Wir stellen MedXpertQA vor, einen äußerst anspruchsvollen und umfassenden Benchmark zur Bewertung von medizinischem Expertenwissen und fortgeschrittenem Denken. MedXpertQA umfasst 4.460 Fragen aus 17 Fachgebieten und 11 Körpersystemen. Es besteht aus zwei Teilmengen, Text zur Textbewertung und MM zur multimodalen Bewertung. MM führt insbesondere Expertenprüfungsfragen mit vielfältigen Bildern und umfangreichen klinischen Informationen ein, einschließlich Patientenakten und Untersuchungsergebnissen, was es von traditionellen medizinischen multimodalen Benchmarks mit einfachen QA-Paaren, die aus Bildunterschriften generiert wurden, abhebt. MedXpertQA wendet strenge Filterung und Erweiterung an, um die unzureichende Schwierigkeit bestehender Benchmarks wie MedQA zu bewältigen, und integriert Facharztfragen, um die klinische Relevanz und Umfassendheit zu verbessern. Wir führen eine Datensynthese durch, um das Risiko von Datenlecks zu minimieren, und führen mehrere Runden von Expertenbewertungen durch, um Genauigkeit und Zuverlässigkeit sicherzustellen. Wir evaluieren 16 führende Modelle auf MedXpertQA. Darüber hinaus ist die Medizin tief mit realen Entscheidungsprozessen verbunden, was einen reichen und repräsentativen Rahmen für die Bewertung von Denkfähigkeiten jenseits von Mathematik und Code bietet. Zu diesem Zweck entwickeln wir eine auf das Denken ausgerichtete Teilmengen, um die Bewertung von Modellen ähnlich wie o1 zu erleichtern.
Die Post-Training-Phase des Sprachmodells (LLM) von DPO bis hin zur Destillation kann Verhaltensweisen verfeinern und neue Fähigkeiten freisetzen, aber die offene Wissenschaft, die diese post-training Techniken unterstützt, steckt noch in den Kinderschuhen. Ein begrenzender Faktor war die Schwierigkeit, groß angelegte vergleichende Analysen von Modellen zur Generierung synthetischer Daten und LLM-Richtern durchzuführen. Um diese Lücke zu schließen, stellen wir WILDCHAT-50M vor, den bisher größten öffentlichen Chat-Datensatz. Wir erweitern den bestehenden WildChat-Datensatz um Antworten nicht nur von GPT, sondern von über 50 verschiedenen Open-Weight-Modellen, die in der Größe von 0,5B bis 104B Parametern variieren. Wir führen eine umfangreiche vergleichende Analyse durch und zeigen das Potenzial dieses Datensatzes, indem wir RE-WILD erstellen, unsere eigene öffentliche SFT-Mischung, die die kürzlich veröffentlichte Tulu-3 SFT-Mischung von Allen AI mit nur 40% so vielen Beispielen übertrifft. Unser Datensatz, Beispiele und Code sind unter https://github.com/penfever/wildchat-50m verfügbar.
Dieses Paper präsentiert SANA-1.5, einen linearen Diffusions-Transformer zur effizienten Skalierung in der Text-zu-Bild-Erzeugung. Aufbauend auf SANA-1.0 führen wir drei Schlüsselinnovationen ein: (1) Effiziente Trainingsskalierung: Ein Tiefenwachstums-Paradigma, das die Skalierung von 1,6 Mrd. auf 4,8 Mrd. Parameter mit signifikant reduzierten Rechenressourcen ermöglicht, kombiniert mit einem speicher-effizienten 8-Bit-Optimierer. (2) Modelltiefenbeschneidung: Eine Block-Importanz-Analysetechnik für eine effiziente Modellkompression auf beliebige Größen mit minimalem Qualitätsverlust. (3) Skalierung zur Inferenzzeit: Eine wiederholte Abtaststrategie, die Rechenleistung gegen Modellkapazität eintauscht, um es kleineren Modellen zu ermöglichen, zur Inferenzzeit die Qualität größerer Modelle zu erreichen. Durch diese Strategien erreicht SANA-1.5 einen Text-Bild-Alignmentscore von 0,72 bei GenEval, der durch Inferenzskalierung auf 0,80 verbessert werden kann und damit einen neuen SoTA auf dem GenEval-Benchmark etabliert. Diese Innovationen ermöglichen eine effiziente Modellskalierung über verschiedene Rechenbudgets hinweg bei gleichbleibend hoher Qualität und machen die hochwertige Bildgenerierung zugänglicher.
Das Verständnis der physischen Welt ist eine grundlegende Herausforderung in der verkörperten KI, die entscheidend ist, um Agenten zu ermöglichen, komplexe Aufgaben auszuführen und sicher in realen Umgebungen zu agieren. Während Vision-Language-Modelle (VLMs) großes Potenzial in der Schlussfolgerung und Aufgabenplanung für verkörperte Agenten gezeigt haben, bleibt ihre Fähigkeit, physische Phänomene zu begreifen, äußerst begrenzt. Um diese Lücke zu schließen, führen wir PhysBench ein, einen umfassenden Benchmark, der entwickelt wurde, um die Fähigkeit von VLMs zum Verständnis der physischen Welt über eine vielfältige Aufgabensammlung zu bewerten. PhysBench enthält 10.002 Einträge von ineinandergreifenden Video-Bild-Text-Daten, kategorisiert in vier Hauptbereiche: physische Objekteigenschaften, physische Objektbeziehungen, physisches Szenenverständnis und physikbasierte Dynamik, weiter unterteilt in 19 Unterklassen und 8 unterschiedliche Fähigkeitsdimensionen. Unsere umfangreichen Experimente, durchgeführt an 75 repräsentativen VLMs, zeigen, dass diese Modelle zwar in der Vernunftschlussfolgerung herausragend sind, jedoch Schwierigkeiten haben, die physische Welt zu verstehen - wahrscheinlich aufgrund des Mangels an physikalischem Wissen in ihren Trainingsdaten und des Fehlens eingebetteter physikalischer Voraussetzungen. Um diesem Mangel entgegenzuwirken, führen wir PhysAgent ein, ein neuartiges Framework, das die Verallgemeinerungsstärken von VLMs mit der spezialisierten Expertise von Vision-Modellen kombiniert und damit das physische Verständnis von VLMs über eine Vielzahl von Aufgaben erheblich verbessert, einschließlich einer 18,4\%igen Verbesserung bei GPT-4o. Darüber hinaus zeigen unsere Ergebnisse, dass die Verbesserung der Fähigkeiten von VLMs im Verständnis der physischen Welt verkörperten Agenten wie MOKA helfen kann. Wir sind der Überzeugung, dass PhysBench und PhysAgent wertvolle Einblicke bieten und dazu beitragen, die Kluft zwischen VLMs und dem Verständnis der physischen Welt zu überbrücken.
Während viele Arbeiten zu Webagenten den Schwerpunkt auf die Möglichkeit legen, autonom Aufgaben im Auftrag von Benutzern auszuführen, fallen Agenten in der Realität oft bei komplexen Aufgaben in realen Kontexten und der Modellierung von Benutzerpräferenzen kurz. Dies bietet eine Gelegenheit für Menschen, mit dem Agenten zusammenzuarbeiten und die Fähigkeiten des Agenten effektiv zu nutzen. Wir schlagen CowPilot vor, ein Framework, das die autonome sowie die kollaborative Webnavigation zwischen Mensch und Agent unterstützt und anhand von Aufgabenerfolg und Aufgabeeffizienz bewertet. CowPilot reduziert die Anzahl der Schritte, die Menschen ausführen müssen, indem Agenten nächste Schritte vorschlagen können, während Benutzer pausieren, ablehnen oder alternative Aktionen ausführen können. Während der Ausführung können Benutzer ihre Aktionen mit dem Agenten verweben, indem sie Vorschläge außer Kraft setzen oder die Agentensteuerung bei Bedarf wieder aufnehmen. Wir führten Fallstudien auf fünf gängigen Websites durch und stellten fest, dass der kollaborative Modus zwischen Mensch und Agent die höchste Erfolgsquote von 95% erreicht, wobei Menschen nur 15,2% der Gesamtschritte ausführen müssen. Selbst bei menschlichen Eingriffen während der Aufgabenausführung treibt der Agent erfolgreich bis zu der Hälfte des Aufgabenerfolgs allein voran. CowPilot kann als nützliches Werkzeug für die Datensammlung und die Agentenbewertung über Websites hinweg dienen, was unserer Meinung nach die Erforschung der Zusammenarbeit von Benutzern und Agenten ermöglichen wird. Video-Demonstrationen sind verfügbar unter https://oaishi.github.io/cowpilot.html.