Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das überwachte Feintuning (SFT) spielt eine entscheidende Rolle bei der Anpassung großer Sprachmodelle (LLMs) an spezifische Domänen oder Aufgaben. Wie jedoch durch empirische Experimente gezeigt wurde, enthält die gesammelte Datenmenge in praktischen Anwendungen unweigerlich Rauschen, was erhebliche Herausforderungen für die Leistung des Modells bei nachgelagerten Aufgaben darstellt. Daher besteht ein dringender Bedarf an einem rauschrobusten SFT-Framework, um die Fähigkeiten des Modells bei nachgelagerten Aufgaben zu verbessern. Um diese Herausforderung anzugehen, führen wir ein robustes SFT-Framework (RobustFT) ein, das Rauschdetektion und Neukennzeichnung an den Daten nachgelagerter Aufgaben durchführt. Für die Rauscherkennung verwendet unser Ansatz ein Multi-Experten-Kollaborationssystem mit inferenzgestützten Modellen, um eine überlegene Rauscherkennung zu erreichen. In der Entstörungsphase nutzen wir eine kontextgestützte Strategie, die das relevanteste und zuversichtlichste Wissen einbezieht, gefolgt von einer sorgfältigen Bewertung zur Generierung zuverlässiger Kennzeichnungen. Darüber hinaus führen wir einen effektiven Datenauswahlmechanismus basierend auf der Reaktionsentropie ein, um sicherzustellen, dass nur hochwertige Proben für das Feintuning beibehalten werden. Umfangreiche Experimente, die an mehreren LLMs über fünf Datensätze durchgeführt wurden, zeigen die außergewöhnliche Leistung von RobustFT in rauschigen Szenarien.
In Ermangelung umfangreicher menschlich annotierter Daten für komplexe Schlussfolgerungsaufgaben hat sich die Selbstverbesserung - bei der Modelle auf ihren eigenen Ausgaben trainiert werden - als primäre Methode zur Leistungssteigerung etabliert. Die entscheidenden Faktoren, die dem Mechanismus dieser iterativen selbstverbessernden Methoden zugrunde liegen, sind jedoch schlecht verstanden, wie zum Beispiel unter welchen Bedingungen Selbstverbesserung wirksam ist und was die Engpässe in den aktuellen Iterationen sind. In dieser Arbeit identifizieren wir und schlagen Methoden vor, um zwei entscheidende Faktoren in diesem iterativen Prozess zu überwachen: (1) die Fähigkeit des Modells, ausreichend diverse Antworten zu generieren (Exploration); und (2) die Effektivität externer Belohnungen bei der Unterscheidung von hochwertigen Kandidaten von minderwertigen (Exploitation). Anhand mathematischer Schlussfolgerungen als Fallstudie beginnen wir mit einer quantitativen Analyse, um die Dynamik von Exploration und Exploitation zu verfolgen und entdecken, dass die explorativen Fähigkeiten eines Modells über Iterationen hinweg schnell nachlassen und auch die Effektivität bei der Ausnutzung externer Belohnungen abnimmt. Basierend auf diesen Erkenntnissen stellen wir B-STaR vor, ein selbstlernendes Schlussfolgerungsframework, das Konfigurationen über Iterationen hinweg autonom anpasst, um Exploration und Exploitation auszubalancieren und somit die Selbstverbesserungseffektivität basierend auf dem aktuellen Richtlinienmodell und den verfügbaren Belohnungen zu optimieren. Unsere Experimente zu mathematischen Schlussfolgerungen, Codierung und gesundem Menschenverstand zeigen, dass B-STaR nicht nur die explorativen Fähigkeiten des Modells während des Trainings verbessert, sondern auch ein effektiveres Gleichgewicht zwischen Exploration und Exploitation erreicht, was zu einer überlegenen Leistung führt.
Die Fähigkeit zu schlussfolgern ist für große multimodale Modelle (LMMs) unerlässlich. In Abwesenheit von multimodalen kettenartig annotierten Daten für das Denken hat sich das selbstentwickelnde Training, bei dem das Modell von seinen eigenen Ausgaben lernt, als wirksamer und skalierbarer Ansatz zur Verbesserung der Schlussfolgerungsfähigkeiten herausgestellt. Trotz seiner zunehmenden Verwendung ist das Verständnis des selbstentwickelnden Trainings, insbesondere im Kontext der multimodalen Schlussfolgerung, begrenzt. In diesem Artikel gehen wir auf die Feinheiten des selbstentwickelnden Trainings für multimodale Schlussfolgerung ein und identifizieren drei Schlüsselfaktoren: Trainingsmethode, Belohnungsmodell und Prompt-Variation. Wir untersuchen systematisch jeden Faktor und erforschen, wie verschiedene Konfigurationen die Effektivität des Trainings beeinflussen. Unsere Analyse führt zu einer Reihe von bewährten Verfahren für jeden Faktor, die darauf abzielen, die multimodale Schlussfolgerung zu optimieren. Darüber hinaus untersuchen wir die Selbstentwicklungsdynamik während des Trainings und den Einfluss automatischer Ausgleichsmechanismen auf die Leistungssteigerung. Nach allen Untersuchungen präsentieren wir ein abschließendes Rezept für das selbstentwickelnde Training in der multimodalen Schlussfolgerung, das diese Designentscheidungen in ein Framework namens MSTaR (Multimodales Selbstentwickelndes Training für Schlussfolgerung) zusammenfasst, das universell wirksam ist für Modelle unterschiedlicher Größenordnungen auf verschiedenen Benchmarks, z.B. deutlich bessere Leistungen als das vorab entwickelte Modell auf 5 multimodalen Schlussfolgerungs-Benchmarks ohne zusätzliche menschliche Annotationen, wie anhand von MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) und InternVL2 (2B) gezeigt. Wir sind der Meinung, dass diese Studie eine bedeutende Lücke im Verständnis des selbstentwickelnden Trainings für multimodale Schlussfolgerung schließt und ein robustes Framework für zukünftige Forschung bietet. Unsere Richtlinien- und Belohnungsmodelle sowie die gesammelten Daten werden veröffentlicht, um weitere Untersuchungen in der multimodalen Schlussfolgerung zu erleichtern.
Autoregressive (AR) Modelle haben Spitzenleistungen bei der Text- und Bildgenerierung erzielt, leiden jedoch unter einer langsamen Generierung aufgrund des tokenbasierten Prozesses. Wir stellen eine ehrgeizige Frage: Kann ein vortrainiertes AR-Modell angepasst werden, um Ausgaben in nur einem oder zwei Schritten zu generieren? Bei Erfolg würde dies die Entwicklung und Bereitstellung von AR-Modellen erheblich vorantreiben. Wir stellen fest, dass bestehende Arbeiten, die versuchen, die AR-Generierung zu beschleunigen, indem sie mehrere Tokens gleichzeitig generieren, grundlegend nicht die Ausgabeverteilung erfassen können, aufgrund der bedingten Abhängigkeiten zwischen den Tokens, was ihre Wirksamkeit für die Generierung in wenigen Schritten einschränkt. Um dies anzugehen, schlagen wir Distilled Decoding (DD) vor, das Flussabgleich verwendet, um eine deterministische Zuordnung von einer Gaußverteilung zur Ausgabeverteilung des vortrainierten AR-Modells zu erstellen. Anschließend trainieren wir ein Netzwerk, um diese Zuordnung zu destillieren, was die Generierung in wenigen Schritten ermöglicht. DD benötigt nicht die Trainingsdaten des ursprünglichen AR-Modells, was es praktischer macht. Wir evaluieren DD an Spitzenbild-AR-Modellen und präsentieren vielversprechende Ergebnisse auf ImageNet-256. Für VAR, das eine Generierung in 10 Schritten erfordert, ermöglicht DD eine Generierung in einem Schritt (6,3-fache Beschleunigung) mit einer akzeptablen Zunahme des FID von 4,19 auf 9,96. Für LlamaGen reduziert DD die Generierung von 256 Schritten auf 1, was eine 217,8-fache Beschleunigung mit einer vergleichbaren FID-Zunahme von 4,11 auf 11,35 erreicht. In beiden Fällen versagen Basismethoden vollständig mit FID>100. DD zeichnet sich auch bei der Text-zu-Bild-Generierung aus, indem es die Generierung von 256 Schritten auf 2 für LlamaGen reduziert, mit einer minimalen FID-Zunahme von 25,70 auf 28,95. Als erste Arbeit, die die Möglichkeit der Ein-Schritt-Generierung für Bild-AR-Modelle demonstriert, fordert DD die vorherrschende Vorstellung heraus, dass AR-Modelle grundsätzlich langsam sind, und eröffnet neue Möglichkeiten für eine effiziente AR-Generierung. Die Projektwebsite befindet sich unter https://imagination-research.github.io/distilled-decoding.
Die o1-Modellreihe wird mit groß angelegtem verstärkendem Lernen trainiert, um mittels Gedankenketten zu argumentieren. Diese fortschrittlichen Argumentationsfähigkeiten eröffnen neue Möglichkeiten zur Verbesserung der Sicherheit und Robustheit unserer Modelle. Insbesondere können unsere Modelle über unsere Sicherheitsrichtlinien im Kontext nachdenken, wenn sie auf potenziell unsichere Eingaben reagieren, durch überlegte Ausrichtung. Dies führt zu Spitzenleistungen bei bestimmten Risiko-Benchmarks wie der Erzeugung unzulässiger Ratschläge, der Auswahl stereotyper Antworten und dem Erliegen bekannten Umgehungen. Das Training von Modellen, um eine Gedankenfolge zu integrieren, bevor sie antworten, hat das Potenzial, erhebliche Vorteile freizusetzen, erhöht jedoch auch potenzielle Risiken, die aus gesteigerter Intelligenz resultieren. Unsere Ergebnisse unterstreichen die Notwendigkeit, robuste Ausrichtungsmethoden zu entwickeln, ihre Wirksamkeit umfassend zu testen und akribische Risikomanagementprotokolle aufrechtzuerhalten. Dieser Bericht umreißt die Sicherheitsarbeit, die für die OpenAI o1- und OpenAI o1-mini-Modelle durchgeführt wurde, einschließlich Sicherheitsbewertungen, externem Red Teaming und Bewertungen des Vorbereitungsrahmens.
Techniken, die es großen Sprachmodellen (LLMs) ermöglichen, durch Generierung und Beachtung von Zwischenschritten im Denkprozess "besser zu denken", haben das Potenzial gezeigt, komplexe Probleme zu lösen. Die Standardansätze generieren jedoch unmittelbar vor der Antwort Sequenzen diskreter Tokens, was zu erheblichen Latenzkosten führen kann und die Optimierung herausfordernd macht. In dieser Arbeit zeigen wir, dass ein eingefrorenes LLM mit einem Offline-Coprozessor ergänzt werden kann, der auf dem Schlüssel-Wert (kv)-Cache des Modells arbeitet. Dieser Coprozessor erweitert den Cache um eine Reihe latenter Einbettungen, die darauf abzielen, die Genauigkeit des nachfolgenden Decodings zu verbessern. Wir trainieren diesen Coprozessor unter Verwendung des Sprachmodellierungsverlusts des Decoders auf standardmäßigen Pretraining-Daten, während der Decoder selbst eingefroren bleibt. Dieser Ansatz ermöglicht es dem Modell, auf differenzierbare Weise zu lernen, wie zusätzliche Berechnungen in seinen kv-Cache destilliert werden können. Da der Decoder unverändert bleibt, kann der Coprozessor offline und asynchron arbeiten, und das Sprachmodell kann normal funktionieren, wenn der Coprozessor nicht verfügbar ist oder festgestellt wird, dass ein bestimmter Cache keine zusätzlichen Berechnungen erfordert. Experimentell zeigen wir, dass der Decoder bei einer Cache-Erweiterung eine geringere Perplexität bei zahlreichen nachfolgenden Tokens erreicht. Darüber hinaus zeigen unsere Experimente, dass die Cache-Erweiterung konsistent die Perplexität reduziert und die Leistung bei einer Vielzahl von auf Reasoning basierenden Aufgaben verbessert, selbst ohne task-spezifisches Training.
Das In-Context Learning (ICL) ist eine Technik, bei der Sprachmodelle Vorhersagen basierend auf Beispielen treffen, die in ihrem Eingangskontext bereitgestellt werden. Zuvor begrenzte die Größe ihres Kontextfensters die Anzahl der darstellbaren Beispiele, wodurch die Auswahl von Beispielen entscheidend war, um die maximal effektive Beispielsammlung zu identifizieren. Allerdings hat das jüngste Aufkommen von Long Context Language Models (LCLMs) die Anzahl der darstellbaren Beispiele im Kontext signifikant erhöht, was die wichtige Frage aufwirft, ob die Leistung des ICL in einem many-shot Regime immer noch empfindlich auf die Methode der Stichprobenauswahl reagiert. Um dies zu beantworten, überprüfen wir diese Ansätze im Kontext von LCLMs durch umfangreiche Experimente an 18 Datensätzen, die 4 Aufgaben abdecken. Überraschenderweise stellen wir fest, dass ausgefeilte Techniken zur Beispielauswahl keine signifikanten Verbesserungen gegenüber einer einfachen zufälligen Stichprobenauswahl bringen. Stattdessen zeigen wir, dass das Aufkommen von LCLMs die Herausforderung des ICL grundlegend verlagert hat: weg von der Auswahl der effektivsten Beispiele hin zur Sammlung ausreichender Beispiele, um das Kontextfenster zu füllen. Insbesondere nutzen in bestimmten Datensätzen alle verfügbaren Beispiele das Kontextfenster nicht vollständig aus. Durch die Ergänzung der Beispiele im Kontext mit einem einfachen Datenvermehrungsansatz verbessern wir die ICL-Leistung signifikant um 5%.
Das Erlernen eines robusten Video-Variationalen Autoencoders (VAE) ist entscheidend, um die Videoüberflüssigkeit zu reduzieren und die effiziente Videogenerierung zu erleichtern. Die direkte Anwendung von Bild-VAEs auf einzelne Frames isoliert voneinander kann zu zeitlichen Inkonsistenzen und suboptimalen Kompressionsraten führen, aufgrund eines Mangels an zeitlicher Kompression. Bestehende Video-VAEs haben begonnen, sich mit zeitlicher Kompression auseinanderzusetzen; jedoch leiden sie oft unter unzureichender Rekonstruktionsleistung. In diesem Paper präsentieren wir einen neuartigen und leistungsstarken Video-Autoencoder, der in der Lage ist, Videos mit hoher Qualität zu codieren. Zunächst beobachten wir, dass das Verflechten von räumlicher und zeitlicher Kompression durch eine einfache Erweiterung des Bild-VAEs zu einem 3D-VAE zu Bewegungsunschärfe und Detailverzerrungsartefakten führen kann. Daher schlagen wir eine zeitbewusste räumliche Kompression vor, um die räumlichen Informationen besser zu codieren und zu decodieren. Darüber hinaus integrieren wir ein leichtgewichtiges Bewegungskompressionsmodell für eine weitere zeitliche Kompression. Zweitens schlagen wir vor, die im Text-zu-Video-Datensätzen inhärente textuelle Information zu nutzen und Textanleitungen in unser Modell zu integrieren. Dies verbessert signifikant die Rekonstruktionsqualität, insbesondere hinsichtlich der Detailerhaltung und zeitlichen Stabilität. Drittens verbessern wir die Vielseitigkeit unseres Modells weiter durch gemeinsames Training sowohl auf Bildern als auch auf Videos, was nicht nur die Rekonstruktionsqualität verbessert, sondern dem Modell auch ermöglicht, sowohl Bild- als auch Video-Codierung durchzuführen. Umfangreiche Evaluationen gegenüber starken aktuellen Baselines zeigen die überlegene Leistung unserer Methode. Die Projektwebsite ist unter https://yzxing87.github.io/vae/ zu finden.
In jüngster Zeit sind O1-ähnliche Modelle als repräsentative Beispiele aufgetaucht, die die Wirksamkeit von langen Gedankenkettens (CoT) bei Aufgaben des logischen Denkens wie Mathematik- und Codieraufgaben veranschaulichen. In diesem Paper stellen wir DRT-o1 vor, einen Versuch, den Erfolg von langen CoT auf neuronale maschinelle Übersetzung (MT) zu übertragen. Insbesondere bei Literaturbüchern, die möglicherweise Vergleiche und Metaphern enthalten, ist die Übersetzung dieser Texte in eine Zielsprache aufgrund kultureller Unterschiede in der Praxis sehr schwierig. In solchen Fällen gelingt es eine wörtliche Übersetzung oft nicht, die beabsichtigte Bedeutung effektiv zu vermitteln. Selbst für professionelle menschliche Übersetzer muss erheblich darüber nachgedacht werden, die Semantik während des Übersetzungsprozesses zu bewahren. Um die Fähigkeit zu langem Denken von LLMs in der MT zu simulieren, schürfen wir zunächst Sätze mit Vergleichen oder Metaphern aus bestehenden Literaturbüchern und entwickeln dann einen Multi-Agenten-Framework, um diese Sätze über langen Gedanken zu übersetzen. Im Multi-Agenten-Framework wird ein Übersetzer verwendet, um den Ausgangssatz iterativ unter den Vorschlägen eines Beraters zu übersetzen. Um die Wirksamkeit der langen Gedanken zu gewährleisten, wird auch ein Evaluierer eingesetzt, um zu beurteilen, ob die Übersetzung in der aktuellen Runde besser ist als die vorherige oder nicht. Auf diese Weise sammeln wir Zehntausende von Daten zur MT mit langem Denken, die zur Schulung unseres DRT-o1 verwendet werden. Die experimentellen Ergebnisse zur Literaturübersetzung zeigen die Wirksamkeit des DRT-o1. Mit Qwen2.5-7B und Qwen2.5-14B als Grundlage erreicht die Verbesserung durch DRT-o1 7,33~8,26 BLEU und 1,66~3,36 CometScore. Darüber hinaus kann DRT-o1-7B QwQ-32B-Preview um 7,82 BLEU und 1,46 CometScore übertreffen und zeigt damit seine Wirksamkeit. Das Projekt ist unter https://github.com/krystalan/DRT-o1 verfügbar.
Die heutigen generativen KI-Systeme sind standardmäßig darauf eingestellt, Informationen zu präsentieren, anstatt Benutzer wie ein menschlicher Tutor beim Lernen zu unterstützen. Um die Vielzahl potenzieller Bildungsanwendungsfälle für diese Systeme anzugehen, formulieren wir die Herausforderung, pädagogisches Verhalten einzuführen, als pädagogische Anweisungsnachfolge. Dabei umfassen Trainings- und Evaluierungsbeispiele systemweite Anweisungen, die die spezifischen pädagogischen Merkmale beschreiben, die in nachfolgenden Modellinteraktionen vorhanden oder erwünscht sind. Diese Herangehensweise vermeidet es, unsere Modelle an eine bestimmte Definition von Pädagogik zu binden, und ermöglicht es Lehrern oder Entwicklern, das gewünschte Verhalten des Modells festzulegen. Sie ebnet auch den Weg zur Verbesserung von Gemini-Modellen für das Lernen, indem sie die Hinzufügung unserer pädagogischen Daten zu post-training Mischungen ermöglicht, neben ihrem schnell wachsenden Funktionsumfang. Beide stellen wichtige Änderungen gegenüber unserem ursprünglichen Technikbericht dar. Wir zeigen, wie das Training mit pädagogischer Anweisungsnachfolge ein LearnLM-Modell (verfügbar auf Google AI Studio) hervorbringt, das von Experten in einer Vielzahl von Lernszenarien deutlich bevorzugt wird, mit durchschnittlichen Präferenzstärken von 31\% gegenüber GPT-4o, 11\% gegenüber Claude 3.5 und 13\% gegenüber dem Gemini 1.5 Pro-Modell, auf dem LearnLM basierte.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei der Codegenerierung gezeigt, kämpfen jedoch oft mit komplexen Programmieraufgaben, die tiefgreifendes algorithmisches Denken erfordern. Während die Prozessaufsicht durch erlernte Belohnungsmodelle vielversprechend ist, um das Denken zu lenken, erfordert sie teure Trainingsdaten und leidet unter unzuverlässiger Bewertung. Wir schlagen Outcome-Verfeinernde Prozessaufsicht vor, ein neuartiges Paradigma, das die Verfeinerung des Ergebnisses selbst als den zu beaufsichtigenden Prozess behandelt. Unser Rahmenkonzept nutzt konkrete Ausführungssignale, um die Beaufsichtigung von Denkschritten zu verankern, und verwendet baumstrukturierte Exploration, um gleichzeitig mehrere Lösungspfade aufrechtzuerhalten. Experimente zeigen, dass unser Ansatz selbst kleineren Modellen ermöglicht, hohe Erfolgsquoten und Leistungsmetriken bei anspruchsvollen Programmieraufgaben zu erreichen, zuverlässigere Verifizierung als traditionelle Belohnungsmodelle zu schaffen, ohne Trainings-PRMs zu benötigen. Unser Ansatz erzielt signifikante Verbesserungen bei 5 Modellen und 3 Datensätzen: durchschnittlich 26,9% mehr Korrektheit und 42,2% mehr Effizienz. Die Ergebnisse legen nahe, dass die Bereitstellung eines strukturierten Denkraums mit konkreten Verifikationssignalen entscheidend ist für die Lösung komplexer Programmieraufgaben. Wir stellen unseren gesamten Code und unsere Daten unter folgendem Link Open Source zur Verfügung: https://github.com/zhuohaoyu/ORPS
Große Sprachmodelle (LLMs) haben bemerkenswertes Potenzial in wissenschaftlichen Bereichen gezeigt, doch eine grundlegende Frage bleibt unbeantwortet: Können wir menschliche Forschungsgemeinschaften mit LLMs simulieren? Die Beantwortung dieser Frage kann unser Verständnis der Prozesse hinter Ideenfindung vertiefen und die automatische Entdeckung neuer wissenschaftlicher Erkenntnisse inspirieren. In dieser Arbeit schlagen wir ResearchTown vor, ein Multi-Agenten-Framework zur Simulation von Forschungsgemeinschaften. Innerhalb dieses Rahmens wird die menschliche Forschungsgemeinschaft vereinfacht und als Agent-Daten-Graph modelliert, in dem Forscher und Papers als Agenten-Typ- bzw. Daten-Typ-Knoten dargestellt werden und basierend auf ihren Kooperationsbeziehungen verbunden sind. Wir stellen auch TextGNN vor, ein textbasiertes Inferenz-Framework, das verschiedene Forschungsaktivitäten (z. B. Papierlesen, Papier schreiben und Review schreiben) als spezielle Formen eines vereinheitlichten Message-Passing-Prozesses auf dem Agent-Daten-Graph modelliert. Zur Bewertung der Qualität der Forschungssimulation präsentieren wir ResearchBench, einen Benchmark, der eine Knotenmaskierungsvorhersageaufgabe für eine skalierbare und objektive Bewertung basierend auf Ähnlichkeit verwendet. Unsere Experimente zeigen drei Schlüsselerkenntnisse auf: (1) ResearchTown kann eine realistische Simulation kollaborativer Forschungsaktivitäten, einschließlich Papier schreiben und Review schreiben, bieten; (2) ResearchTown kann eine robuste Simulation mit mehreren Forschern und verschiedenen Papers aufrechterhalten; (3) ResearchTown kann interdisziplinäre Forschungsideen generieren, die potenziell neue Forschungsrichtungen inspirieren können.
Stellen Sie sich eine Welt vor, in der KI Ihre Arbeit erledigen kann, während Sie schlafen - Ihre Forschungsmaterialien organisieren, einen Bericht entwerfen oder eine Präsentation erstellen, die Sie für morgen benötigen. Während aktuelle digitale Agenten einfache Aufgaben ausführen können, sind sie weit davon entfernt, komplexe Arbeitsaufgaben zu bewältigen, die Menschen routinemäßig erledigen. Wir stellen PC Agent vor, ein KI-System, das einen entscheidenden Schritt in Richtung dieser Vision durch die Übertragung menschlicher Kognition darstellt. Unsere Schlüsselerkenntnis ist, dass der Weg von der Ausführung einfacher "Aufgaben" zur Bewältigung komplexer "Arbeit" darin besteht, menschliche kognitive Prozesse effizient während der Computernutzung zu erfassen und daraus zu lernen. Zur Validierung dieser Hypothese führen wir drei Schlüsselinnovationen ein: (1) PC Tracker, eine leichtgewichtige Infrastruktur, die hochwertige menschlich-computerinteraktions-Trajektorien mit vollständigem kognitivem Kontext effizient sammelt; (2) ein zweistufiger Kognitionsvollendungs-Pipeline, die Rohinteraktionsdaten in reiche kognitive Trajektorien umwandelt, indem sie Aktionssemantik und Denkprozesse vervollständigt; und (3) ein Multi-Agenten-System, das einen Planungsagenten für Entscheidungsfindung mit einem Verankerungsagenten für robuste visuelle Verankerung kombiniert. Unsere vorläufigen Experimente zur Erstellung von PowerPoint-Präsentationen zeigen, dass komplexe digitale Arbeitsfähigkeiten mit einer geringen Menge hochwertiger kognitiver Daten erreicht werden können - PC Agent, trainiert mit nur 133 kognitiven Trajektorien, kann anspruchsvolle Arbeitsszenarien mit bis zu 50 Schritten über mehrere Anwendungen hinweg bewältigen. Dies zeigt die Dateneffizienz unseres Ansatzes und betont, dass der Schlüssel zur Schulung fähiger digitaler Agenten darin liegt, menschliche kognitive Daten zu sammeln. Durch die Open-Source-Bereitstellung unseres vollständigen Frameworks, einschließlich der Daten-Erfassungsinfrastruktur und der Kognitionsvollendungsmethoden, zielen wir darauf ab, die Hürden für die Forschungsgemeinschaft zu senken, um wirklich fähige digitale Agenten zu entwickeln.
Mit dem zunehmenden Einsatz großer Sprachmodelle (LLMs) als Agenten ergeben sich durch ihre Integration in interaktive Umgebungen und Werkzeugnutzung neue Sicherheitsherausforderungen, die über die mit den Modellen selbst verbundenen hinausgehen. Allerdings stellt das Fehlen umfassender Benchmarks zur Bewertung der Agentensicherheit eine bedeutende Hürde für eine effektive Bewertung und weitere Verbesserung dar. In diesem Paper stellen wir Agent-SafetyBench vor, einen umfassenden Benchmark, der entwickelt wurde, um die Sicherheit von LLM-Agenten zu bewerten. Agent-SafetyBench umfasst 349 Interaktionsumgebungen und 2.000 Testfälle, bewertet 8 Kategorien von Sicherheitsrisiken und deckt 10 häufig auftretende Fehlermodi ab, die bei unsicheren Interaktionen häufig vorkommen. Unsere Bewertung von 16 beliebten LLM-Agenten zeigt ein besorgniserregendes Ergebnis: Keiner der Agenten erreicht einen Sicherheitswert von über 60%. Dies unterstreicht bedeutende Sicherheitsherausforderungen bei LLM-Agenten und verdeutlicht den erheblichen Bedarf an Verbesserungen. Durch quantitative Analyse identifizieren wir kritische Fehlermodi und fassen zwei grundlegende Sicherheitsdefizite in aktuellen LLM-Agenten zusammen: Mangelnde Robustheit und mangelndes Risikobewusstsein. Darüber hinaus legen unsere Ergebnisse nahe, dass alleiniges Vertrauen auf Verteidigungsanreize nicht ausreicht, um diese Sicherheitsprobleme anzugehen, was die Notwendigkeit fortschrittlicherer und robusterer Strategien betont. Wir veröffentlichen Agent-SafetyBench unter https://github.com/thu-coai/Agent-SafetyBench, um weitere Forschung und Innovationen in der Bewertung und Verbesserung der Agentensicherheit zu erleichtern.
Multi-modale Multi-Party-Gespräche (MMC) sind ein weniger erforschtes, aber wichtiges Forschungsthema, da sie gut zu realen Szenarien passen und daher potenziell breiter eingesetzt werden können. Im Vergleich zu traditionellen multi-modalen Gesprächen erfordert MMC stärkere Fähigkeiten zum verständnisorientierten Verständnis, da viele Gesprächspartner sowohl im visuellen als auch im textuellen Kontext auftreten. Um die Untersuchung dieses Problems zu erleichtern, präsentieren wir in diesem Artikel Friends-MMC, einen MMC-Datensatz, der über 24.000 einzigartige Äußerungen enthält, die mit Video-Context verknüpft sind. Um das verständnisorientierte Verständnis des Dialogs zu erforschen, annotieren wir auch den Sprecher jeder Äußerung, die Namen und Bounding-Boxen der Gesichter, die im Video erscheinen. Basierend auf diesem Friends-MMC-Datensatz untersuchen wir weiterhin zwei grundlegende MMC-Aufgaben: die Identifizierung des Gesprächssprechers und die Vorhersage der Gesprächsantwort, die beide die multi-party-Natur mit dem Video oder Bild als visuellem Kontext haben. Für die Identifizierung des Gesprächssprechers zeigen wir die Ineffizienzen bestehender Methoden wie vortrainierte Modelle auf und schlagen eine einfache, aber effektive Basismethode vor, die einen Optimierungslöser nutzt, um den Kontext der beiden Modalitäten zu nutzen und bessere Leistungen zu erzielen. Für die Vorhersage der Gesprächsantwort feinabstimmen wir generative Dialogmodelle auf Friend-MMC und analysieren die Vorteile von Sprecherinformationen. Der Code und der Datensatz sind öffentlich verfügbar unter https://github.com/yellow-binary-tree/Friends-MMC, und daher rufen wir dazu auf, mehr Aufmerksamkeit auf die Modellierung von Sprecherinformationen bei der Verständnis von Gesprächen zu richten.
Die kürzliche Einführung von Reinforcement Fine-Tuning (RFT) durch OpenAI zeigt das Potenzial des Reasoning Foundation Models und bietet ein neues Paradigma für Feinabstimmungen jenseits einfacher Musterimitation. Dieser technische Bericht präsentiert OpenRFT, unseren Versuch, generalistische Reasoning-Modelle für domänenspezifische Aufgaben unter denselben Einstellungen wie RFT feinzutunen. OpenRFT begegnet zwei zentralen Herausforderungen des Mangels an Reasoning-Schrittdaten und der begrenzten Menge an Trainingsdaten, indem es die domänenspezifischen Proben auf drei Arten nutzt: Frageaugmentierung, Synthese von Reasoning-Prozessdaten und Few-Shot ICL. Die Evaluation erfolgt auf SciKnowEval, wo OpenRFT beachtliche Leistungssteigerungen mit nur 100 domänenspezifischen Proben für jede Aufgabe erzielt. Weitere experimentelle Ergebnisse werden kontinuierlich in späteren Versionen aktualisiert. Quellcodes, Datensätze und Modelle sind unter folgendem Link verfügbar: https://github.com/ADaM-BJTU/OpenRFT
Als entscheidender Schritt zur Verbesserung der Ausrichtung von LLMs auf menschliche Absichten hat die Anweisungsfeinabstimmung (Instruction Fine-Tuning, IFT) einen hohen Bedarf an Datensatzqualität. Allerdings enthalten bestehende IFT-Datensätze oft Wissen, das inkonsistent mit dem internen Wissen von LLMs ist, das aus der Vorphase des Trainings gelernt wurde, was die Wirksamkeit von IFT erheblich beeinträchtigen kann. Um dieses Problem anzugehen, führen wir das NILE (iNternal consIstency aLignmEnt)-Framework ein, das darauf abzielt, IFT-Datensätze zu optimieren, um die Fähigkeit von LLMs weiter zu entfalten. NILE arbeitet, indem es das interne Wissen des Ziel-vortrainierten LLMs hervorruft, das den Anweisungsdaten entspricht. Das interne Wissen wird genutzt, um die Antwort in IFT-Datensätzen zu überarbeiten. Darüber hinaus schlagen wir eine neuartige Methode zur internen Konsistenzfilterung (Internal Consistency Filtering, ICF) vor, um Trainingsbeispiele zu filtern und sicherzustellen, dass sie hoch konsistent mit dem internen Wissen von LLMs sind. Unsere Experimente zeigen, dass NILE-ausgerichtete IFT-Datensätze die Leistung von LLMs deutlich steigern, und zwar über mehrere Bewertungsdatensätze zur Fähigkeitsbewertung von LLMs hinweg, mit einem Anstieg von bis zu 66,6% bei Arena-Hard und 68,5% bei Alpaca-Eval V2. Weitere Analysen bestätigen, dass jeder Bestandteil des NILE-Frameworks zu diesen erheblichen Leistungsverbesserungen beiträgt und überzeugende Beweise liefern, dass die Konsistenz von Datensätzen mit dem vortrainierten internen Wissen entscheidend ist, um das Potenzial von LLMs zu maximieren.