papers.description
Während die Aufgabe des Gesichtstauschs in der Forschungswelt kürzlich Aufmerksamkeit erregt hat, bleibt das verwandte Problem des Kopfstauschs weitgehend unerforscht. Neben der Übertragung der Hautfarbe stellt der Kopftausch zusätzliche Herausforderungen dar, wie die Notwendigkeit, strukturelle Informationen des gesamten Kopfes während der Synthese zu bewahren und Lücken zwischen dem ausgetauschten Kopf und dem Hintergrund zu füllen. In diesem Artikel gehen wir auf diese Probleme mit GHOST 2.0 ein, das aus zwei aufgabenspezifischen Modulen besteht. Zunächst stellen wir ein verbessertes Aligner-Modell für die Kopf-Nachstellung vor, das Identitätsinformationen auf mehreren Ebenen bewahrt und robust gegenüber extremen Pose-Variationen ist. Zweitens verwenden wir ein Blender-Modul, das den nachgestellten Kopf nahtlos in den Zielhintergrund integriert, indem es die Hautfarbe überträgt und nicht übereinstimmende Regionen ausfüllt. Beide Module übertreffen die Baselines bei den entsprechenden Aufgaben, was es ermöglicht, state-of-the-art Ergebnisse im Kopftausch zu erzielen. Wir behandeln auch komplexe Fälle, wie große Unterschiede in den Frisuren von Quelle und Ziel. Der Code ist verfügbar unter https://github.com/ai-forever/ghost-2.0.
Wir stellen Kanana vor, eine Reihe von zweisprachigen Sprachmodellen, die eine herausragende Leistung im Koreanischen und eine wettbewerbsfähige Leistung im Englischen demonstrieren. Die Rechenkosten von Kanana sind deutlich niedriger als bei modernsten Modellen ähnlicher Größe. Der Bericht beschreibt detailliert die Techniken, die während des Vor-Trainings eingesetzt wurden, um recheneffiziente und dennoch wettbewerbsfähige Modelle zu erreichen, darunter hochwertige Datenfilterung, gestaffeltes Vor-Training, Tiefen-Skalierung sowie Beschneidung und Destillation. Darüber hinaus skizziert der Bericht die Methoden, die während des Nach-Trainings der Kanana-Modelle verwendet wurden, einschließlich überwachter Feinabstimmung und Präferenzoptimierung, mit dem Ziel, ihre Fähigkeit zur nahtlosen Interaktion mit Nutzern zu verbessern. Schließlich erläutert der Bericht plausible Ansätze zur Anpassung von Sprachmodellen an spezifische Szenarien, wie Einbettung, retrievergestützte Generierung und Funktionsaufrufe. Die Kanana-Modellreihe umfasst Parameterzahlen von 2,1B bis 32,5B, wobei 2,1B-Modelle (Basis, Instruktion, Einbettung) öffentlich freigegeben wurden, um die Forschung zu koreanischen Sprachmodellen zu fördern.
Wissenschaftliche Entdeckungen beruhen darauf, dass Wissenschaftler neue Hypothesen entwickeln, die einer rigorosen experimentellen Validierung unterzogen werden. Um diesen Prozess zu unterstützen, führen wir einen KI-Co-Wissenschaftler ein, ein Multi-Agenten-System, das auf Gemini 2.0 basiert. Der KI-Co-Wissenschaftler soll dabei helfen, neues, originäres Wissen zu erschließen und nachweislich neuartige Forschungshypothesen und -vorschläge zu formulieren, die auf früheren Erkenntnissen aufbauen und mit den von Wissenschaftlern vorgegebenen Forschungszielen und -richtlinien übereinstimmen. Das Design des Systems integriert einen Ansatz zur Hypothesengenerierung, der auf den Prinzipien der wissenschaftlichen Methode basiert und durch die Skalierung der Rechenleistung während der Testphase beschleunigt wird. Zu den zentralen Beiträgen gehören: (1) eine Multi-Agenten-Architektur mit einem asynchronen Aufgabenausführungsrahmen für flexible Rechenleistungsskalierung; (2) ein Turnier-Evolutionsprozess zur selbstverbessernden Hypothesengenerierung. Automatisierte Auswertungen zeigen kontinuierliche Vorteile durch die Rechenleistung während der Testphase, die die Qualität der Hypothesen verbessert. Obwohl das System allgemein einsetzbar ist, konzentrieren wir uns auf die Entwicklung und Validierung in drei biomedizinischen Bereichen: Medikamenten-Neupositionierung, Entdeckung neuer Zielmoleküle und die Erklärung von Mechanismen der bakteriellen Evolution und Antibiotikaresistenz. Für die Medikamenten-Neupositionierung schlägt das System Kandidaten mit vielversprechenden Validierungsergebnissen vor, darunter Kandidaten für akute myeloische Leukämie, die in vitro bei klinisch relevanten Konzentrationen eine Tumorhemmung zeigen. Bei der Entdeckung neuer Zielmoleküle schlug der KI-Co-Wissenschaftler neue epigenetische Ziele für Leberfibrose vor, die durch antifibrotische Aktivität und Leberzellregeneration in humanen Leberorganoiden validiert wurden. Schließlich reproduzierte der KI-Co-Wissenschaftler unveröffentlichte experimentelle Ergebnisse durch eine parallele in-silico-Entdeckung eines neuartigen Gentransfermechanismus in der bakteriellen Evolution. Diese Ergebnisse, die in separaten, zeitgleich veröffentlichten Berichten detailliert beschrieben werden, demonstrieren das Potenzial, die biomedizinische und wissenschaftliche Entdeckung zu unterstützen und ein Zeitalter von KI-unterstützten Wissenschaftlern einzuläuten.
Das Verständnis domänenspezifischer Theoreme erfordert oft mehr als nur textbasiertes Denken; eine effektive Kommunikation durch strukturierte visuelle Erklärungen ist entscheidend für ein tieferes Verständnis. Während große Sprachmodelle (LLMs) eine starke Leistung beim textbasierten Theoremverständnis zeigen, bleibt ihre Fähigkeit, kohärente und pädagogisch sinnvolle visuelle Erklärungen zu generieren, eine offene Herausforderung. In dieser Arbeit stellen wir TheoremExplainAgent vor, einen agentenbasierten Ansatz zur Erstellung langer Theorem-Erklärungsvideos (über 5 Minuten) mithilfe von Manim-Animationen. Um multimodale Theorem-Erklärungen systematisch zu bewerten, schlagen wir TheoremExplainBench vor, einen Benchmark, der 240 Theoreme aus verschiedenen MINT-Disziplinen abdeckt, zusammen mit 5 automatisierten Bewertungsmetriken. Unsere Ergebnisse zeigen, dass agentenbasierte Planung entscheidend für die Erstellung detaillierter langer Videos ist, und der o3-mini-Agent erreicht eine Erfolgsquote von 93,8 % und eine Gesamtpunktzahl von 0,77. Unsere quantitativen und qualitativen Studien zeigen jedoch, dass die meisten produzierten Videos kleinere Probleme mit dem Layout visueller Elemente aufweisen. Darüber hinaus decken multimodale Erklärungen tiefere Denkfehler auf, die textbasierte Erklärungen nicht offenbaren, was die Bedeutung multimodaler Erklärungen unterstreicht.
Trotz der zentralen Rolle Griechenlands in der globalen Wirtschaft bleiben große Sprachmodelle (LLMs) für den griechischen Finanzkontext aufgrund der sprachlichen Komplexität des Griechischen und der Knappheit domänenspezifischer Datensätze weitgehend unerforscht. Frühere Bemühungen im Bereich der mehrsprachigen Finanz-Natürlichen-Sprache-Verarbeitung (NLP) haben erhebliche Leistungsunterschiede aufgezeigt, doch bislang wurden keine speziellen griechischen Finanz-Benchmarks oder griechisch-spezifischen Finanz-LLMs entwickelt. Um diese Lücke zu schließen, führen wir Plutus-ben, den ersten griechischen Finanz-Evaluierungs-Benchmark, und Plutus-8B, das wegweisende griechische Finanz-LLM, ein, das mit griechischen domänenspezifischen Daten feinabgestimmt wurde. Plutus-ben adressiert fünf zentrale Finanz-NLP-Aufgaben im Griechischen: numerische und textuelle Named Entity Recognition, Frage-Antwort-Systeme, abstraktive Zusammenfassung und Themenklassifizierung, wodurch systematische und reproduzierbare LLM-Bewertungen ermöglicht werden. Um diese Aufgaben zu untermauern, präsentieren wir drei neuartige, hochwertige griechische Finanzdatensätze, die gründlich von muttersprachlichen griechischen Experten annotiert wurden, ergänzt durch zwei bestehende Ressourcen. Unsere umfassende Evaluierung von 22 LLMs auf Plutus-ben zeigt, dass die griechische Finanz-NLP aufgrund der sprachlichen Komplexität, domänenspezifischer Terminologie und Lücken im finanziellen Denken nach wie vor herausfordernd ist. Diese Erkenntnisse unterstreichen die Grenzen des sprachübergreifenden Transfers, die Notwendigkeit finanzieller Expertise in griechisch trainierten Modellen und die Herausforderungen bei der Anpassung von Finanz-LLMs an griechische Texte. Wir veröffentlichen Plutus-ben, Plutus-8B und alle zugehörigen Datensätze öffentlich, um reproduzierbare Forschung zu fördern und die griechische Finanz-NLP voranzutreiben, wodurch eine breitere mehrsprachige Inklusivität im Finanzbereich gefördert wird.
Mehrsprachige Sprachmodelle (LMs) sollen faktisches Wissen konsistent über verschiedene Sprachen hinweg abrufen können, doch sie scheitern oft daran, Wissen zwischen Sprachen zu transferieren, selbst wenn sie die korrekten Informationen in einer der Sprachen besitzen. Beispielsweise stellen wir fest, dass ein LM Rashed Al Shashai korrekt als aus Saudi-Arabien stammend identifizieren kann, wenn die Frage auf Arabisch gestellt wird, jedoch konsequent versagt, wenn die Frage auf Englisch oder Swahili gestellt wird. Um diese Einschränkung systematisch zu untersuchen, führen wir einen Benchmark mit 10.000 länderbezogenen Fakten in 13 Sprachen ein und schlagen drei neue Metriken vor: den Faktischen Erinnerungswert, den Wissenstransferierbarkeitswert und den Cross-Lingualen Faktischen Wissenstransferierbarkeitswert, um die faktische Erinnerung und die Wissenstransferierbarkeit in LMs über verschiedene Sprachen hinweg zu quantifizieren. Unsere Ergebnisse zeigen grundlegende Schwächen in den heutigen state-of-the-art LMs auf, insbesondere bei der cross-lingualen Generalisierung, bei der Modelle nicht effektiv Wissen über verschiedene Sprachen hinweg transferieren können, was zu inkonsistenten Leistungen führt, die von der verwendeten Sprache abhängen. Unsere Erkenntnisse unterstreichen die Notwendigkeit, dass LMs die sprachspezifische faktische Zuverlässigkeit erkennen und die vertrauenswürdigsten Informationen über Sprachen hinweg nutzen sollten. Wir veröffentlichen unseren Benchmark und unser Evaluationsframework, um zukünftige Forschung im Bereich des mehrsprachigen Wissenstransfers voranzutreiben.
Kürzlich haben o1-ähnliche Modelle erhebliche Aufmerksamkeit erregt, da diese Modelle lange Chain-of-Thought (CoT)-Schritte erzeugen, um die Fähigkeiten bestehender großer Sprachmodelle (LLMs) im Bereich des logischen Denkens zu verbessern. In diesem Artikel führen wir DeltaBench ein, um die Qualitäten dieser langen CoTs zu verstehen und die Kritikfähigkeiten bestehender LLMs in Bezug auf diese langen CoTs zu messen. DeltaBench umfasst die generierten langen CoTs verschiedener o1-ähnlicher Modelle (z.B. QwQ, DeepSeek-R1) für verschiedene Denkaufgaben (z.B. Mathematik, Code, allgemeines logisches Denken), um die Fähigkeit zur Erkennung von Fehlern in langen CoT-Argumentationen zu bewerten. Basierend auf DeltaBench führen wir zunächst eine detaillierte Analyse der generierten langen CoTs durch, um die Effektivität und Effizienz verschiedener o1-ähnlicher Modelle zu untersuchen. Anschließend führen wir umfangreiche Bewertungen bestehender Prozessbewertungsmodelle (PRMs) und Kritikmodelle durch, um die Fehler in jedem annotierten Prozess zu erkennen. Dies soll die Grenzen und Einschränkungen bestehender PRMs und Kritikmodelle aufzeigen. Abschließend hoffen wir, dass DeltaBench Entwicklern dabei helfen kann, die langen CoT-Denkfähigkeiten ihrer Modelle besser zu verstehen.
Wir stellen Rank1 vor, das erste Umordnungsmodell, das darauf trainiert wurde, die Rechenleistung zur Testzeit zu nutzen. Rank1 demonstriert die Anwendbarkeit von Reasoning-Sprachmodellen (z. B. OpenAI's o1, Deepseek's R1 usw.) für die Destillation innerhalb des Retrieval-Prozesses, um die Leistung eines kleineren Modells schnell zu verbessern. Wir haben einen Datensatz von mehr als 600.000 Beispielen von R1-Reasoning-Traces aus Abfragen und Passagen in MS MARCO gesammelt und als Open Source veröffentlicht. Modelle, die auf diesem Datensatz trainiert wurden, zeigen: (1) state-of-the-art Leistung bei fortgeschrittenen Reasoning- und Instruktionsfolge-Datensätzen; (2) funktionieren bemerkenswert gut außerhalb der Verteilung aufgrund der Fähigkeit, auf Benutzereingabeaufforderungen zu reagieren; und (3) verfügen über erklärbare Reasoning-Ketten, die Benutzern oder RAG-basierten Systemen zur Verfügung gestellt werden können. Darüber hinaus zeigen wir, dass quantisierte Versionen dieser Modelle eine starke Leistung beibehalten, während sie weniger Rechenleistung/Speicher benötigen. Insgesamt zeigt Rank1, dass die Rechenleistung zur Testzeit einen grundlegend neuen Typ eines erklärbaren und leistungsstarken Umordnungsmodells für die Suche ermöglicht.
Belohnungsmodelle (RMs) sind entscheidend für das Training und die Skalierung großer Sprachmodelle (LLMs) zur Inferenzzeit. Allerdings konzentrieren sich bestehende Belohnungsmodelle hauptsächlich auf menschliche Präferenzen und vernachlässigen überprüfbare Korrektheitssignale, die ein starkes Potenzial für das Training von LLMs gezeigt haben. In diesem Artikel schlagen wir agentisches Belohnungsmodellieren vor, ein Belohnungssystem, das Belohnungsmodelle mit überprüfbaren Korrektheitssignalen aus verschiedenen Aspekten kombiniert, um zuverlässige Belohnungen zu liefern. Wir implementieren empirisch einen Belohnungsagenten, genannt RewardAgent, der menschliche Präferenzbelohnungen mit zwei überprüfbaren Signalen kombiniert: Faktizität und Befolgung von Anweisungen, um zuverlässigere Belohnungen zu liefern. Wir führen umfassende Experimente auf bestehenden Belohnungsmodell-Benchmarks und Inferenzzeit-Best-of-n-Suchen bei realen Downstream-Aufgaben durch. RewardAgent übertrifft herkömmliche Belohnungsmodelle deutlich und demonstriert damit seine Wirksamkeit. Wir erstellen weiterhin Trainingspräferenzpaare mit RewardAgent und trainieren ein LLM mit dem DPO-Ziel, wodurch wir eine überlegene Leistung auf verschiedenen NLP-Benchmarks im Vergleich zu konventionellen Belohnungsmodellen erzielen. Unsere Codes sind öffentlich verfügbar, um weitere Forschungen zu ermöglichen (https://github.com/THU-KEG/Agentic-Reward-Modeling).
Es herrscht zunehmende Begeisterung über das Potenzial von Sprachmodellen (Language Models, LMs), wissenschaftliche Entdeckungen zu beschleunigen. Das Falsifizieren von Hypothesen ist entscheidend für den wissenschaftlichen Fortschritt, da es ermöglicht, Behauptungen im Laufe der Zeit iterativ zu verfeinern. Dieser Prozess erfordert erheblichen Aufwand, logisches Denken und Kreativität seitens der Forschenden. Dennoch bewerten aktuelle Benchmarks für LMs hauptsächlich deren Fähigkeit, Lösungen zu generieren, anstatt sie in Frage zu stellen. Wir plädieren für die Entwicklung von Benchmarks, die diese umgekehrte Fähigkeit bewerten – nämlich die Erstellung von Gegenbeispielen für subtil falsche Lösungen. Um diesen Ansatz zu demonstrieren, beginnen wir mit dem Bereich des algorithmischen Problemlösens, wo Gegenbeispiele automatisch mithilfe von Codeausführung bewertet werden können. Konkret stellen wir REFUTE vor, einen dynamisch aktualisierten Benchmark, der aktuelle Probleme und fehlerhafte Einreichungen aus Programmierwettbewerben enthält, bei denen menschliche Experten erfolgreich Gegenbeispiele identifiziert haben. Unsere Analyse zeigt, dass die besten Denkagenten, selbst OpenAI o3-mini (hoch) mit Codeausführungsfeedback, Gegenbeispiele für nur <9% der fehlerhaften Lösungen in REFUTE erstellen können, obwohl Bewertungen darauf hindeuten, dass sie bis zu 48% dieser Probleme von Grund auf lösen können. Wir hoffen, dass unsere Arbeit Fortschritte bei der Bewertung und Verbesserung der Fähigkeit von LMs anregt, falsche Lösungen zu widerlegen – eine Fähigkeit, die sowohl für die Beschleunigung der Forschung als auch für die Selbstverbesserung von Modellen durch zuverlässiges reflektierendes Denken von entscheidender Bedeutung ist.
Paywalls, Lizenzen und Urheberrechtsregeln schränken oft die breite Verbreitung und Wiederverwendung wissenschaftlichen Wissens ein. Wir vertreten die Position, dass es sowohl rechtlich als auch technisch machbar ist, das wissenschaftliche Wissen in Fachtexten zu extrahieren. Aktuelle Methoden wie Text-Embeddings scheitern daran, faktische Inhalte zuverlässig zu bewahren, und einfaches Paraphrasieren ist möglicherweise nicht rechtlich zulässig. Wir fordern die Gemeinschaft auf, eine neue Idee zu übernehmen: die Konvertierung wissenschaftlicher Dokumente in Wissenseinheiten mithilfe von LLMs. Diese Einheiten verwenden strukturierte Daten, die Entitäten, Attribute und Beziehungen erfassen, ohne stilistische Inhalte. Wir liefern Belege dafür, dass Wissenseinheiten: (1) einen rechtlich vertretbaren Rahmen für die Weitergabe von Wissen aus urheberrechtlich geschützten Forschungstexten bilden, basierend auf rechtlichen Analysen des deutschen Urheberrechts und der US-amerikanischen Fair-Use-Doktrin, und (2) den Großteil (~95 %) des faktischen Wissens aus dem Originaltext bewahren, gemessen an der Leistung bei Multiple-Choice-Fragen zu Fakten aus dem urheberrechtlich geschützten Originaltext in vier Forschungsbereichen. Die Befreiung wissenschaftlichen Wissens aus dem Urheberrecht verspricht transformative Vorteile für die wissenschaftliche Forschung und Bildung, indem es Sprachmodellen ermöglicht, wichtige Fakten aus urheberrechtlich geschützten Texten wiederzuverwenden. Zur Unterstützung stellen wir Open-Source-Tools zur Konvertierung von Forschungsdokumenten in Wissenseinheiten bereit. Insgesamt zeigt unsere Arbeit die Machbarkeit auf, den Zugang zu wissenschaftlichem Wissen zu demokratisieren, während das Urheberrecht respektiert wird.
Das Training von Vision-Sprach-Modellen (VLMs) für grafische Benutzeroberflächen (GUI)-Agenten mittels Reinforcement Learning (RL) steht vor entscheidenden Herausforderungen: Umgebungsbasiertes RL erfordert kostspielige Interaktionen, während umgebungsfreie Methoden mit Verteilungsverschiebungen und Belohnungsverallgemeinerung kämpfen. Wir schlagen ein umgebungsfreies RL-Framework vor, das die Werteinschätzung von der Politikoptimierung entkoppelt, indem es ein vortrainiertes Value Environment Model (VEM) nutzt. VEM sagt Zustands-Aktions-Werte direkt aus Offline-Daten voraus und destilliert menschenähnliche Vorannahmen über GUI-Interaktionsergebnisse, ohne die Vorhersage des nächsten Zustands oder Umgebungsfeedback zu benötigen. Dies vermeidet kumulative Fehler und erhöht die Widerstandsfähigkeit gegenüber UI-Änderungen, indem es sich auf semantische Argumentation konzentriert (z.B. Fördert diese Aktion das Ziel des Benutzers?). Das Framework arbeitet in zwei Stufen: (1) Vortraining von VEM zur Schätzung langfristiger Aktionsnutzen und (2) Führung der Politikerkundung mit eingefrorenen VEM-Signalen, was layoutunabhängige GUI-Automatisierung ermöglicht. Bei der Bewertung auf Android-in-the-Wild-Benchmarks erreicht VEM Spitzenleistungen in Offline- und Online-Szenarien, übertrifft umgebungsfreie Baselines deutlich und erreicht umgebungsbasierte Ansätze ohne Interaktionskosten. Wichtig ist, dass VEM zeigt, dass semantikbewusste Werteinschätzung vergleichbare Leistungen mit online trainierten Methoden erzielen kann.
Die monokulare Tiefenschätzung (MDE) zielt darauf ab, die Szenentiefe aus einem einzelnen RGB-Bild vorherzusagen und spielt eine entscheidende Rolle beim Verständnis von 3D-Szenen. Jüngste Fortschritte in der Zero-Shot-MDE nutzen normalisierte Tiefendarstellungen und destillationsbasiertes Lernen, um die Generalisierung über verschiedene Szenen hinweg zu verbessern. Allerdings können aktuelle Tiefennormalisierungsmethoden für die Destillation, die auf globaler Normalisierung beruhen, verrauschte Pseudolabels verstärken und so die Effektivität der Destillation verringern. In diesem Artikel analysieren wir systematisch die Auswirkungen verschiedener Tiefennormalisierungsstrategien auf die Pseudolabel-Destillation. Basierend auf unseren Erkenntnissen schlagen wir Cross-Context Distillation vor, das globale und lokale Tiefenhinweise integriert, um die Qualität der Pseudolabels zu verbessern. Zusätzlich führen wir ein Multi-Teacher-Destillationsframework ein, das die komplementären Stärken verschiedener Tiefenschätzungsmodelle nutzt, was zu robusteren und genaueren Tiefenvorhersagen führt. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass unser Ansatz state-of-the-art Methoden sowohl quantitativ als auch qualitativ deutlich übertrifft.
Sprachmodelle sind in hohem Maße auf hochwertige Daten angewiesen, um optimale Leistung zu erzielen. Bestehende Ansätze stützen sich auf manuell entwickelte Heuristiken, die Perplexität bestehender Modelle, das Training von Klassifikatoren oder sorgfältiges Prompt-Engineering, was erhebliche Expertenkenntnisse und menschliche Annotationsarbeit erfordert und gleichzeitig Verzerrungen einführt. Wir stellen CritiQ vor, eine neuartige Methode zur Datenauswahl, die automatisch Kriterien aus menschlichen Präferenzen für die Datenqualität mit nur 30 simulierten menschlich annotierten Paaren extrahiert und eine effiziente Datenauswahl durchführt. Die Hauptkomponente, CritiQ Flow, verwendet einen Manager-Agenten, um Qualitätskriterien weiterzuentwickeln, und Worker-Agenten, um paarweise Urteile zu fällen. Wir erstellen eine Wissensdatenbank, die Qualitätskriterien aus früheren Arbeiten extrahiert, um CritiQ Flow zu unterstützen. Im Vergleich zu Perplexitäts- und Klassifikator-basierten Methoden sind verbale Kriterien besser interpretierbar und besitzen wiederverwendbaren Wert. Nach der Ableitung der Kriterien trainieren wir den CritiQ Scorer, um Qualitätsbewertungen zu vergeben und eine effiziente Datenauswahl durchzuführen. Wir demonstrieren die Wirksamkeit unserer Methode in den Bereichen Code, Mathematik und Logik und erreichen eine hohe Genauigkeit bei menschlich annotierten Testsets. Um die Qualität der ausgewählten Daten zu validieren, trainieren wir kontinuierlich Llama 3.1-Modelle und beobachten eine verbesserte Leistung bei nachgelagerten Aufgaben im Vergleich zur gleichmäßigen Stichprobenziehung. Ablationsstudien validieren die Vorteile der Wissensdatenbank und des Reflexionsprozesses. Wir analysieren, wie sich Kriterien entwickeln und die Effektivität von Mehrheitsentscheidungen.
Große Sprachmodelle (LLMs) werden zunehmend in alltäglichen Anwendungen eingesetzt, was robuste allgemeine Denkfähigkeiten und ein vielfältiges Spektrum an Denkfertigkeiten erfordert. Allerdings konzentrieren sich die derzeitigen Benchmarks zur Bewertung der Denkfähigkeiten von LLMs hauptsächlich auf mathematische und Programmierfähigkeiten, wodurch eine Lücke bei der Bewertung breiterer Denkfähigkeiten entsteht. Eine besondere Ausnahme stellt der BIG-Bench-Datensatz dar, der als entscheidender Benchmark für die Bewertung der allgemeinen Denkfähigkeiten von LLMs dient, dank seiner vielfältigen Sammlung anspruchsvoller Aufgaben, die eine umfassende Bewertung der allgemeinen Denkfähigkeiten über verschiedene Fertigkeiten hinweg in einem einheitlichen Rahmen ermöglichten. Jüngste Fortschritte bei LLMs haben jedoch zu einer Sättigung bei BIG-Bench und seiner schwierigeren Version BIG-Bench Hard (BBH) geführt. State-of-the-Art-Modelle erzielen nahezu perfekte Ergebnisse bei vielen Aufgaben in BBH, wodurch dessen Nützlichkeit verringert wird. Um diese Einschränkung zu überwinden, führen wir BIG-Bench Extra Hard (BBEH) ein, einen neuen Benchmark, der die Grenzen der Bewertung der Denkfähigkeiten von LLMs erweitern soll. BBEH ersetzt jede Aufgabe in BBH durch eine neue Aufgabe, die eine ähnliche Denkfähigkeit untersucht, aber eine deutlich erhöhte Schwierigkeit aufweist. Wir bewerten verschiedene Modelle auf BBEH und beobachten eine (harmonische) durchschnittliche Genauigkeit von 9,8 % für das beste allgemeine Modell und 44,8 % für das beste spezialisierte Denkmodell, was auf erheblichen Verbesserungsbedarf hinweist und die anhaltende Herausforderung unterstreicht, robuste allgemeine Denkfähigkeiten in LLMs zu erreichen. Wir veröffentlichen BBEH öffentlich unter: https://github.com/google-deepmind/bbeh.
Eine effektive Personalisierung von LLMs ist entscheidend für eine breite Palette von Anwendungen, die mit Nutzern interagieren, wie virtuelle Assistenten und Content-Curation. Inspiriert von den starken Fähigkeiten von LLMs im In-Context-Learning schlagen wir Few-Shot Preference Optimization (FSPO) vor, das die Modellierung von Belohnungen als ein Meta-Lernproblem umformuliert. In diesem Rahmen lernt ein LLM, sich schnell an einen Nutzer anzupassen, indem es einige beschriftete Präferenzen dieses Nutzers verwendet, um eine personalisierte Belohnungsfunktion für ihn zu erstellen. Da reale Präferenzdaten knapp und schwer in großem Umfang zu sammeln sind, schlagen wir sorgfältige Designentscheidungen vor, um synthetische Präferenzdatensätze für die Personalisierung zu erstellen, wobei wir über 1M synthetische personalisierte Präferenzen mit öffentlich verfügbaren LLMs generieren. Insbesondere ist es entscheidend, dass die Daten sowohl eine hohe Diversität als auch eine kohärente, selbstkonsistente Struktur aufweisen, um erfolgreich von synthetischen Daten auf reale Nutzer übertragen zu werden. Wir evaluieren FSPO bei der personalisierten offenen Generierung für bis zu 1.500 synthetische Nutzer in drei Domänen: Filmkritiken, pädagogische Anpassung basierend auf dem Bildungshintergrund und allgemeine Fragebeantwortung, sowie in einer kontrollierten Studie mit menschlichen Probanden. Insgesamt erreicht FSPO eine durchschnittliche Alpaca-Eval-Gewinnrate von 87 % bei der Generierung von Antworten, die auf synthetische Nutzer personalisiert sind, und eine Gewinnrate von 72 % bei echten menschlichen Nutzern in der offenen Fragebeantwortung.
Die Mixture-of-Experts (MoE)-Architektur reduziert die Trainings- und Inferenzkosten im Vergleich zu einem dichten Modell gleicher Kapazität erheblich. Upcycling ist ein Ansatz, bei dem ein MoE-Modell mithilfe eines vortrainierten dichten Modells initialisiert und trainiert wird. Obwohl Upcycling anfängliche Leistungssteigerungen bewirkt, schreitet das Training langsamer voran als bei einem Training von Grund auf, was langfristig zu suboptimalen Ergebnissen führt. Wir schlagen Drop-Upcycling vor – eine Methode, die dieses Problem effektiv adressiert. Drop-Upcycling kombiniert zwei scheinbar widersprüchliche Ansätze: die Nutzung des Wissens vortrainierter dichter Modelle bei gleichzeitiger statistischer Reinitialisierung einiger Gewichtsteile. Dieser Ansatz fördert strategisch die Spezialisierung der Experten und verbessert dadurch die Effizienz des MoE-Modells bei der Wissensaneignung signifikant. Umfangreiche groß angelegte Experimente zeigen, dass Drop-Upcycling langfristig, insbesondere beim Training mit Hunderten von Milliarden Token oder mehr, frühere MoE-Konstruktionsmethoden deutlich übertrifft. Infolgedessen erreicht unser MoE-Modell mit 5,9 Milliarden aktiven Parametern eine vergleichbare Leistung wie ein 13 Milliarden Parameter umfassendes dichtes Modell derselben Modellfamilie, benötigt jedoch nur etwa 1/4 der Trainings-FLOPs. Alle experimentellen Ressourcen, einschließlich Quellcode, Trainingsdaten, Modell-Checkpoints und Protokolle, sind öffentlich verfügbar, um die Reproduzierbarkeit und zukünftige Forschung zu MoE zu fördern.
Eine effektive Kommunikation in der Flugsicherung ist entscheidend für die Aufrechterhaltung der Flugsicherheit, dennoch bleiben die Herausforderungen durch akzentuiertes Englisch in automatischen Spracherkennungssystemen weitgehend ungelöst. Bestehende Modelle haben Schwierigkeiten mit der Transkriptionsgenauigkeit von südostasiatisch akzentuierten (SEA-akzentuierten) Sprachmustern, insbesondere in lauten Flugsicherungsumgebungen. Diese Studie präsentiert die Entwicklung von ASR-Modellen, die speziell für südostasiatische Akzente feinabgestimmt wurden, unter Verwendung eines neu erstellten Datensatzes. Unsere Forschung erzielt signifikante Verbesserungen mit einer Wortfehlerrate (WER) von 0,0982 oder 9,82% bei SEA-akzentuierten Flugsicherungsgesprächen. Darüber hinaus hebt der Artikel die Bedeutung von regionspezifischen Datensätzen und akzentfokussiertem Training hervor und bietet einen Weg für den Einsatz von ASR-Systemen in ressourcenbeschränkten militärischen Operationen. Die Ergebnisse unterstreichen die Notwendigkeit von rauschrobusten Trainingstechniken und regionspezifischen Datensätzen, um die Transkriptionsgenauigkeit für nicht-westliche Akzente in der Flugsicherungskommunikation zu verbessern.
Da KI-Modelle zunehmend in verschiedenen realen Szenarien eingesetzt werden, bleibt die Gewährleistung ihrer Sicherheit eine kritische, jedoch noch unzureichend erforschte Herausforderung. Obwohl erhebliche Anstrengungen unternommen wurden, um die KI-Sicherheit zu bewerten und zu verbessern, stellen das Fehlen eines standardisierten Rahmens und eines umfassenden Toolkits erhebliche Hindernisse für systematische Forschung und praktische Anwendung dar. Um diese Lücke zu schließen, stellen wir AISafetyLab vor, ein einheitliches Framework und Toolkit, das repräsentative Angriffs-, Verteidigungs- und Bewertungsmethoden für die KI-Sicherheit integriert. AISafetyLab verfügt über eine intuitive Benutzeroberfläche, die es Entwicklern ermöglicht, verschiedene Techniken nahtlos anzuwenden, während gleichzeitig eine gut strukturierte und erweiterbare Codebasis für zukünftige Weiterentwicklungen gewährleistet wird. Zusätzlich führen wir empirische Studien an Vicuna durch, analysieren verschiedene Angriffs- und Verteidigungsstrategien und liefern wertvolle Einblicke in deren vergleichende Wirksamkeit. Um die fortlaufende Forschung und Entwicklung im Bereich der KI-Sicherheit zu fördern, ist AISafetyLab öffentlich unter https://github.com/thu-coai/AISafetyLab verfügbar, und wir sind bestrebt, es kontinuierlich zu pflegen und zu verbessern.
Die Beziehung zwischen 3D-Strukturen und den Energiezuständen molekularer Systeme zu etablieren, hat sich als vielversprechender Ansatz für das Lernen von 3D-Moleküldarstellungen erwiesen. Bestehende Methoden sind jedoch darauf beschränkt, die molekularen Energiezustände aus der klassischen Mechanik zu modellieren. Diese Einschränkung führt zu einer erheblichen Vernachlässigung quantenmechanischer Effekte, wie beispielsweise quantisierter (diskretisierter) Energieniveaustrukturen, die eine genauere Schätzung der molekularen Energie ermöglichen und experimentell durch Energiespektren gemessen werden können. In diesem Artikel schlagen wir vor, die Energiespektren zu nutzen, um das Pre-Training von 3D-Moleküldarstellungen (MolSpectra) zu verbessern und somit das Wissen der Quantenmechanik in die molekularen Darstellungen zu integrieren. Konkret schlagen wir SpecFormer vor, einen Multi-Spektrum-Encoder, der molekulare Spektren durch maskierte Patch-Rekonstruktion kodiert. Durch die weitere Ausrichtung der Ausgaben des 3D-Encoders und des Spektrum-Encoders mittels eines kontrastiven Ziels verbessern wir das Verständnis des 3D-Encoders für Moleküle. Evaluierungen auf öffentlichen Benchmarks zeigen, dass unsere vortrainierten Darstellungen bestehende Methoden in der Vorhersage molekularer Eigenschaften und der Modellierung von Dynamiken übertreffen.
Wissensbearbeitungstechniken haben sich als wesentliche Werkzeuge für die Aktualisierung des faktischen Wissens großer Sprachmodelle (LLMs) und multimodaler Modelle (LMMs) etabliert, die es ermöglichen, veraltete oder ungenaue Informationen zu korrigieren, ohne von Grund auf neu zu trainieren. Allerdings konzentrieren sich bestehende Benchmarks für multimodale Wissensbearbeitung hauptsächlich auf auf der Entitätsebene dargestelltes Wissen in Form einfacher Triplets, was die Komplexität von realen multimodalen Informationen nicht erfasst. Um dieses Problem zu lösen, stellen wir MMKE-Bench vor, einen umfassenden MultiModal Knowledge Editing Benchmark, der entworfen wurde, um die Fähigkeit von LMMs zu bewerten, vielfältiges visuelles Wissen in realen Szenarien zu bearbeiten. MMKE-Bench begegnet diesen Einschränkungen, indem es drei Arten von Bearbeitungsaufgaben integriert: visuelle Entitätsbearbeitung, visuelle semantische Bearbeitung und benutzerspezifische Bearbeitung. Darüber hinaus verwendet MMKE-Bench freie natürliche Sprache zur Darstellung und Bearbeitung von Wissen, was ein flexibleres und effektiveres Format bietet. Der Benchmark besteht aus 2.940 Wissensstücken und 8.363 Bildern in 33 breiten Kategorien, wobei Evaluierungsfragen automatisch generiert und von Menschen überprüft werden. Wir bewerten fünf modernste Wissensbearbeitungsmethoden auf drei prominenten LMMs und zeigen auf, dass keine Methode in allen Kriterien herausragt und dass visuelle und benutzerspezifische Bearbeitungen besonders herausfordernd sind. MMKE-Bench setzt einen neuen Standard zur Bewertung der Robustheit von multimodalen Wissensbearbeitungstechniken und treibt den Fortschritt in diesem sich schnell entwickelnden Bereich voran.
Große Sprachmodelle (LLMs) sind zu einem unverzichtbaren Bestandteil von Aufgaben der natürlichen Sprachverarbeitung geworden. Allerdings ist die autoregressive Abtastung zu einem Effizienzengpass geworden. Das Multi-Draft Spekulative Dekodieren (MDSD) ist ein neuer Ansatz, bei dem bei der Generierung jedes Tokens ein kleines Entwurfsmodell mehrere Entwürfe erstellt und das Ziel-LLM sie parallel überprüft, um sicherzustellen, dass die endgültige Ausgabe der Zielmodellverteilung entspricht. Die beiden Hauptentwurfsentscheidungen bei MDSD sind die Entwurfsabtastmethode und der Überprüfungsalgorithmus. Für eine feste Entwurfsabtastmethode ist die optimale Akzeptanzrate eine Lösung für ein optimales Transportproblem, aber die Komplexität dieses Problems macht es schwierig, die optimale Akzeptanzrate zu bestimmen und die Kluft zwischen bestehenden Überprüfungsalgorithmen und der theoretischen Obergrenze zu messen. In diesem Papier wird das Duale des optimalen Transportproblems diskutiert, was einen Weg bietet, um die optimale Akzeptanzrate effizient zu berechnen. Zum ersten Mal messen wir die theoretische Obergrenze der Effizienz von MDSD für Vokabellisten in der Größenordnung von Tausenden und quantifizieren die Kluft zwischen bestehenden Überprüfungsalgorithmen und dieser Obergrenze. Wir vergleichen auch verschiedene Entwurfsabtastmethoden anhand ihrer optimalen Akzeptanzraten. Unsere Ergebnisse zeigen, dass die Entwurfsabtastmethode die optimale Akzeptanzrate maßgeblich beeinflusst, wobei die Abtastung ohne Zurücklegen die Abtastung mit Zurücklegen übertrifft. Darüber hinaus erreichen bestehende Überprüfungsalgorithmen sowohl bei der Abtastung ohne Zurücklegen als auch bei der Abtastung mit Zurücklegen nicht die theoretische Obergrenze. Unsere Ergebnisse legen nahe, dass sorgfältig gestaltete Entwurfsabtastmethoden das Potenzial haben, die optimale Akzeptanzrate zu verbessern und die Entwicklung von Überprüfungsalgorithmen zu ermöglichen, die der theoretischen Obergrenze nahekommen.
Das Generieren präziser und prägnanter Textzusammenfassungen aus multimodalen Dokumenten ist eine Herausforderung, insbesondere bei visuell komplexen Inhalten wie wissenschaftlichen Postern. Wir stellen PosterSum vor, einen neuartigen Benchmark, um die Entwicklung von Vision-Sprache-Modellen voranzutreiben, die wissenschaftliche Poster verstehen und in Forschungszusammenfassungen (Abstracts) überführen können. Unser Datensatz umfasst 16.305 Konferenzposter, die jeweils mit ihren entsprechenden Abstracts als Zusammenfassungen gepaart sind. Jedes Poster wird im Bildformat bereitgestellt und bietet diverse Herausforderungen für das visuelle Verständnis, wie komplexe Layouts, dichte Textbereiche, Tabellen und Abbildungen. Wir evaluieren state-of-the-art Multimodale Große Sprachmodelle (MLLMs) anhand von PosterSum und zeigen, dass diese Schwierigkeiten haben, wissenschaftliche Poster korrekt zu interpretieren und zusammenzufassen. Wir schlagen Segment & Summarize vor, eine hierarchische Methode, die aktuelle MLLMs bei automatisierten Metriken übertrifft und eine Verbesserung von 3,14 % in ROUGE-L erzielt. Dies wird als Ausgangspunkt für zukünftige Forschung zur Postersummarisierung dienen.
Schwach überwachte semantische Segmentierung (WSSS) nutzt typischerweise begrenzte semantische Annotationen, um initiale Class Activation Maps (CAMs) zu erhalten. Aufgrund der unzureichenden Kopplung zwischen Klassenaktivierungsantworten und semantischer Information im hochdimensionalen Raum neigen CAMs jedoch zu Objektkoinzidenz oder Unteraktivierung, was zu einer geringeren Erkennungsgenauigkeit führt. Um dieses Problem zu lösen, schlagen wir DOEI, Dual Optimization of Embedding Information, vor, einen neuartigen Ansatz, der Einbettungsrepräsentationen durch semantisch bewusste Aufmerksamkeitsgewichtungsmatrizen rekonstruiert, um die Ausdrucksfähigkeit der Einbettungsinformation zu optimieren. Konkret verstärkt DOEI Tokens mit hoher Konfidenz und unterdrückt solche mit niedriger Konfidenz während der Klassen-zu-Patch-Interaktion. Diese Ausrichtung der Aktivierungsantworten an die semantische Information stärkt die Propagation und Entkopplung von Zielmerkmalen, wodurch die generierten Einbettungen die Zielmerkmale im hochrangigen semantischen Raum genauer repräsentieren können. Zusätzlich schlagen wir in DOEI ein Hybrid-Feature-Alignment-Modul vor, das RGB-Werte, einbettungsgesteuerte Merkmale und Selbstaufmerksamkeitsgewichte kombiniert, um die Zuverlässigkeit der Kandidaten-Tokens zu erhöhen. Umfassende Experimente zeigen, dass DOEI ein effektives Plug-and-Play-Modul ist, das state-of-the-art, auf Visual Transformer basierende WSSS-Modelle befähigt, die Qualität der CAMs und die Segmentierungsleistung auf bekannten Benchmarks, einschließlich PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) und MS COCO (+1,2%, +1,6% mIoU), signifikant zu verbessern. Der Code wird unter https://github.com/AIGeeksGroup/DOEI verfügbar sein.