Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Vereinheitlichung von multimodalem Verständnis und Generierung hat in modernen proprietären Systemen beeindruckende Fähigkeiten gezeigt. In dieser Arbeit stellen wir BAGEL vor, ein Open-Source-Grundlagenmodell, das nativ multimodales Verständnis und Generierung unterstützt. BAGEL ist ein einheitliches, ausschließlich auf Decodern basierendes Modell, das auf Billionen von Tokens vortrainiert wurde, die aus groß angelegten, verschachtelten Text-, Bild-, Video- und Webdaten kuratiert wurden. Wenn es mit solch vielfältigen, verschachtelten multimodalen Daten skaliert wird, zeigt BAGEL aufkommende Fähigkeiten im komplexen multimodalen Schlussfolgern. Infolgedessen übertrifft es Open-Source-Vereinheitsmodelle sowohl in der multimodalen Generierung als auch im Verständnis über Standard-Benchmarks hinweg deutlich, während es fortgeschrittene multimodale Schlussfolgerungsfähigkeiten wie freie Bildmanipulation, Vorhersage zukünftiger Bildsequenzen, 3D-Manipulation und Weltnavigation zeigt. In der Hoffnung, weitere Möglichkeiten für die multimodale Forschung zu eröffnen, teilen wir die wichtigsten Erkenntnisse, Details zum Vortraining, das Datenkuratierungsprotokoll und stellen unseren Code sowie Checkpoints der Gemeinschaft zur Verfügung. Die Projektseite befindet sich unter https://bagel-ai.org/.
Die Effizienz der Aufmerksamkeit ist aufgrund ihrer quadratischen Zeitkomplexität von großer Bedeutung. Wir verbessern die Effizienz der Aufmerksamkeit durch zwei wesentliche Beiträge: Erstens nutzen wir die neuen FP4-Tensor-Cores in Blackwell-GPUs, um die Berechnung der Aufmerksamkeit zu beschleunigen. Unsere Implementierung erreicht 1038 TOPS auf der RTX5090, was einer 5-fachen Beschleunigung gegenüber der schnellsten FlashAttention auf der RTX5090 entspricht. Experimente zeigen, dass unsere FP4-Aufmerksamkeit die Inferenz verschiedener Modelle auf Plug-and-Play-Weise beschleunigen kann. Zweitens führen wir Low-Bit-Aufmerksamkeit in Trainingsaufgaben ein. Bisherige Arbeiten zu Low-Bit-Aufmerksamkeit wie FlashAttention3 und SageAttention konzentrieren sich nur auf die Inferenz. Die Effizienz beim Training großer Modelle ist jedoch ebenfalls wichtig. Um zu untersuchen, ob Low-Bit-Aufmerksamkeit effektiv auf Trainingsaufgaben angewendet werden kann, entwickeln wir eine präzise und effiziente 8-Bit-Aufmerksamkeit für sowohl die Vorwärts- als auch die Rückwärtspropagation. Experimente zeigen, dass 8-Bit-Aufmerksamkeit in Feinabstimmungsaufgaben verlustfreie Leistung erzielt, jedoch in Vorabtrainingsaufgaben eine langsamere Konvergenz aufweist. Der Code wird unter https://github.com/thu-ml/SageAttention verfügbar sein.
Belohnungsmodelle spielen eine entscheidende Rolle dabei, große Sprachmodelle in Richtung von Ausgaben zu lenken, die den menschlichen Erwartungen entsprechen. Dennoch bleibt eine offene Herausforderung darin, die Rechenleistung zur Testzeit effektiv zu nutzen, um die Leistung von Belohnungsmodellen zu verbessern. In dieser Arbeit führen wir Reward Reasoning Models (RRMs) ein, die speziell dafür entwickelt sind, einen durchdachten Denkprozess auszuführen, bevor sie endgültige Belohnungen generieren. Durch Chain-of-Thought Reasoning nutzen RRMs zusätzliche Rechenleistung zur Testzeit für komplexe Anfragen, bei denen angemessene Belohnungen nicht unmittelbar ersichtlich sind. Um RRMs zu entwickeln, implementieren wir ein Reinforcement-Learning-Framework, das selbstentwickelte Fähigkeiten zur Belohnungslogik fördert, ohne explizite Denkspuren als Trainingsdaten zu benötigen. Experimentelle Ergebnisse zeigen, dass RRMs eine überlegene Leistung bei Belohnungsmodellierungs-Benchmarks in verschiedenen Domänen erzielen. Insbesondere zeigen wir, dass RRMs die Rechenleistung zur Testzeit adaptiv nutzen können, um die Belohnungsgenauigkeit weiter zu verbessern. Die vortrainierten Reward Reasoning Models sind unter https://huggingface.co/Reward-Reasoning verfügbar.
Die Skalierung der Rechenleistung zur Testzeit ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung großer Sprachmodelle (LLMs) zu verbessern. Bisherige Ansätze verwenden typischerweise Reinforcement Learning (RL), um einen verifizierbaren Belohnungswert zu maximieren, der am Ende von Schlussfolgerungspfaden erhalten wird. Solche Methoden optimieren jedoch nur die Endleistung unter einem großen und festen Token-Budget, was die Effizienz sowohl im Training als auch im Einsatz beeinträchtigt. In dieser Arbeit stellen wir ein neuartiges Framework, AnytimeReasoner, vor, um die Leistung bei der Schlussfolgerung zu jedem Zeitpunkt zu optimieren, mit dem Ziel, die Token-Effizienz und die Flexibilität der Schlussfolgerung unter variierenden Token-Budget-Beschränkungen zu verbessern. Um dies zu erreichen, kürzen wir den vollständigen Denkprozess, um ihn in zufällig ausgewählte Token-Budgets aus einer Prior-Verteilung einzupassen, wodurch das Modell gezwungen wird, die optimale Antwort für jeden gekürzten Denkprozess zur Verifizierung zusammenzufassen. Dies führt verifizierbare dichte Belohnungen in den Schlussfolgerungsprozess ein und erleichtert eine effektivere Zuweisung von Belohnungen in der RL-Optimierung. Anschließend optimieren wir die Denk- und Zusammenfassungsstrategien auf entkoppelte Weise, um den kumulativen Belohnungswert zu maximieren. Zusätzlich führen wir eine neuartige Technik zur Reduzierung der Varianz ein, die Budget Relative Policy Optimization (BRPO), um die Robustheit und Effizienz des Lernprozesses bei der Verstärkung der Denkstrategie zu verbessern. Empirische Ergebnisse in mathematischen Schlussfolgerungsaufgaben zeigen, dass unsere Methode GRPO unter verschiedenen Prior-Verteilungen und allen Denk-Budgets durchweg übertrifft und sowohl das Training als auch die Token-Effizienz verbessert.
Neurosymbolische (NeSy) Prädiktoren kombinieren neuronale Wahrnehmung mit symbolischem Denken, um Aufgaben wie visuelles Schließen zu lösen. Standard-NeSy-Prädiktoren gehen jedoch von bedingter Unabhängigkeit zwischen den extrahierten Symbolen aus, was ihre Fähigkeit einschränkt, Interaktionen und Unsicherheiten zu modellieren – was oft zu übermäßig selbstsicheren Vorhersagen und schlechter Generalisierung außerhalb der Trainingsverteilung führt. Um die Grenzen der Unabhängigkeitsannahme zu überwinden, führen wir neurosymbolische Diffusionsmodelle (NeSyDMs) ein, eine neue Klasse von NeSy-Prädiktoren, die diskrete Diffusion nutzen, um Abhängigkeiten zwischen Symbolen zu modellieren. Unser Ansatz verwendet die Unabhängigkeitsannahme von NeSy-Prädiktoren in jedem Schritt des Diffusionsprozesses erneut, was skalierbares Lernen ermöglicht, während symbolische Abhängigkeiten und Unsicherheitsquantifizierung erfasst werden. Sowohl in synthetischen als auch in realen Benchmarks – einschließlich hochdimensionaler visueller Pfadplanung und regelbasierter autonomer Fahrzeugsteuerung – erreichen NeSyDMs die höchste Genauigkeit unter NeSy-Prädiktoren und zeigen eine starke Kalibrierung.
Ein zentraler Trend bei Large Reasoning Models (z. B. OpenAI's o3) ist die native agentische Fähigkeit, externe Tools wie Webbrowser für die Suche sowie das Schreiben/Ausführen von Code zur Bildmanipulation zu nutzen, um mit Bildern zu denken. In der Open-Source-Forschungsgemeinschaft wurden zwar bedeutende Fortschritte bei rein sprachlichen agentischen Fähigkeiten wie Funktionsaufrufen und Tool-Integration erzielt, doch die Entwicklung multimodaler agentischer Fähigkeiten, die ein echtes Denken mit Bildern beinhalten, sowie die entsprechenden Benchmarks sind noch weniger erforscht. Diese Arbeit hebt die Effektivität von Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) hervor, um flexible und adaptive Denkfähigkeiten für Large Vision-Language Models (LVLMs) zu ermöglichen. Mit Visual-ARFT erhalten Open-Source-LVLMs die Fähigkeit, Websites für Echtzeit-Informationsaktualisierungen zu durchsuchen und Code zu schreiben, um Eingabebilder durch Zuschneiden, Drehen und andere Bildverarbeitungstechniken zu manipulieren und zu analysieren. Wir stellen außerdem einen Multi-modal Agentic Tool Bench (MAT) mit zwei Einstellungen (MAT-Search und MAT-Coding) vor, der entwickelt wurde, um die agentischen Such- und Programmierfähigkeiten von LVLMs zu bewerten. Unsere experimentellen Ergebnisse zeigen, dass Visual-ARFT seinen Baseline-Wert um +18,6 % F1 / +13,0 % EM bei MAT-Coding und +10,3 % F1 / +8,7 % EM bei MAT-Search übertrifft und letztendlich GPT-4o übertrifft. Visual-ARFT erzielt auch +29,3 % F1 / +25,9 % EM Gewinne bei bestehenden Multi-Hop-QA-Benchmarks wie 2Wiki und HotpotQA, was starke Generalisierungsfähigkeiten demonstriert. Unsere Ergebnisse deuten darauf hin, dass Visual-ARFT einen vielversprechenden Weg zur Entwicklung robuster und generalisierbarer multimodaler Agenten bietet.
DeepSeek-R1 hat bemerkenswerte Wirksamkeit bei der Förderung von Schlussfolgerungs- und Generalisierungsfähigkeiten großer Sprachmodelle (LLMs) durch Reinforcement Learning gezeigt. Dennoch wurde das Potenzial von schlussfolgerungsinduzierten Computermodellen im Kontext der Bildqualitätsbewertung (IQA), einer Aufgabe, die entscheidend von visueller Schlussfolgerung abhängt, noch nicht umfassend erforscht. In diesem Artikel stellen wir VisualQuality-R1 vor, ein schlussfolgerungsinduziertes No-Reference-IQA-Modell (NR-IQA), das wir mit Reinforcement Learning to Rank trainieren, einem Lernalgorithmus, der auf die intrinsisch relative Natur der visuellen Qualität zugeschnitten ist. Konkret verwenden wir für ein Bildpaar die Gruppen-Relative-Policy-Optimierung, um mehrere Qualitätsbewertungen für jedes Bild zu generieren. Diese Schätzungen werden dann verwendet, um vergleichende Wahrscheinlichkeiten zu berechnen, dass ein Bild eine höhere Qualität als das andere hat, basierend auf dem Thurstone-Modell. Belohnungen für jede Qualitätsschätzung werden mithilfe kontinuierlicher Treue-Maße definiert, anstatt diskretisierter binärer Labels. Umfangreiche Experimente zeigen, dass das vorgeschlagene VisualQuality-R1 durchweg diskriminative, auf Deep Learning basierende NR-IQA-Modelle sowie eine kürzlich entwickelte schlussfolgerungsinduzierte Qualitätsregressionsmethode übertrifft. Darüber hinaus ist VisualQuality-R1 in der Lage, kontextuell reichhaltige, menschlich ausgerichtete Qualitätsbeschreibungen zu generieren, und unterstützt Multi-Dataset-Training ohne die Notwendigkeit einer Wahrnehmungsskalennachjustierung. Diese Eigenschaften machen VisualQuality-R1 besonders gut geeignet für die zuverlässige Messung von Fortschritten in einer Vielzahl von Bildverarbeitungsaufgaben wie Super-Resolution und Bildgenerierung.
Transformer, die Standardimplementierung für große Sprachmodelle (LLMs), bestehen typischerweise aus Dutzenden bis Hunderten von diskreten Schichten. Obwohl mehr Schichten zu einer besseren Leistung führen können, wurde dieser Ansatz als weitgehend ineffizient kritisiert, insbesondere angesichts der Überlegenheit kontinuierlicher Schichten, die durch Diffusions- und flussbasierte Modelle für die Bildgenerierung demonstriert wurde. Wir schlagen den Latent Flow Transformer (LFT) vor, der einen Block von Schichten durch einen einzigen gelernten Transportoperator ersetzt, der über Flow Matching trainiert wird. Dies bietet eine signifikante Kompression bei gleichzeitiger Kompatibilität mit der ursprünglichen Architektur. Zusätzlich adressieren wir die Einschränkungen bestehender flussbasierter Methoden bei der Bewahrung von Kopplungen durch die Einführung des Flow Walking (FW) Algorithmus. Beim Pythia-410M-Modell komprimiert der mit Flow Matching trainierte LFT 6 von 24 Schichten und übertrifft das direkte Überspringen von 2 Schichten (KL-Divergenz der LM-Logits bei 0,407 vs. 0,529), was die Machbarkeit dieses Designs demonstriert. Wenn der LFT mit FW trainiert wird, destilliert er weitere 12 Schichten in eine einzige Schicht, während die KL-Divergenz auf 0,736 reduziert wird, was das Überspringen von 3 Schichten (0,932) übertrifft und die Lücke zwischen autoregressiven und flussbasierten Generierungsparadigmen erheblich verringert.
Zweck: Mit den Fortschritten bei großen Sprachmodellen (LLMs) für das Gesundheitswesen entsteht die Notwendigkeit für wettbewerbsfähige Open-Source-Modelle, um das öffentliche Interesse zu schützen. Diese Arbeit leistet einen Beitrag zum Bereich der offenen medizinischen LLMs, indem sie Schlüsselphasen der Datenvorverarbeitung und des Trainings optimiert und gleichzeitig zeigt, wie die Modellsicherheit (durch DPO) und Effizienz (durch RAG) verbessert werden können. Die verwendete Evaluierungsmethodik, die vier verschiedene Testtypen umfasst, definiert einen neuen Standard für das Feld. Die resultierenden Modelle, die sich als wettbewerbsfähig mit den besten privaten Alternativen erweisen, werden unter einer freizügigen Lizenz veröffentlicht. Methoden: Aufbauend auf starken Basismodellen wie Llama 3.1 und Qwen 2.5 nutzt Aloe Beta einen benutzerdefinierten Datensatz, um öffentliche Daten mit synthetischen Chain-of-Thought-Beispielen zu erweitern. Die Modelle werden durch Direct Preference Optimization ausgerichtet, wobei der Schwerpunkt auf ethischer und politikorientierter Leistung im Falle von Jailbreaking-Angriffen liegt. Die Bewertung umfasst geschlossene, offene, Sicherheits- und menschliche Beurteilungen, um die Zuverlässigkeit der Ergebnisse zu maximieren. Ergebnisse: Empfehlungen werden für die gesamte Pipeline gegeben, gestützt durch die solide Leistung der Aloe-Familie. Diese Modelle erzielen wettbewerbsfähige Leistungen in Gesundheitsbenchmarks und medizinischen Fachgebieten und werden oft von Fachleuten im Gesundheitswesen bevorzugt. In Bezug auf Voreingenommenheit und Toxizität verbessern die Aloe-Beta-Modelle die Sicherheit erheblich und zeigen Widerstandsfähigkeit gegenüber unbekannten Jailbreaking-Angriffen. Für eine verantwortungsvolle Veröffentlichung ist eine detaillierte Risikobewertung speziell für das Gesundheitswesen den Aloe-Familienmodellen beigefügt. Fazit: Die Aloe-Beta-Modelle und das Rezept, das zu ihnen führt, sind ein bedeutender Beitrag zum Open-Source-Bereich der medizinischen LLMs, da sie Spitzenleistungen bieten und gleichzeitig hohe ethische Anforderungen erfüllen. Diese Arbeit setzt einen neuen Standard für die Entwicklung und Berichterstattung von ausgerichteten LLMs im Gesundheitswesen.
Reinforcement Learning (RL) hat in jüngster Zeit ein starkes Potenzial bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens gezeigt. Insbesondere das von Deepseek-R1-Zero eingeführte „Zero“-Reinforcement Learning ermöglicht das direkte RL-Training von Basis-LLMs, ohne auf eine Zwischenstufe des überwachten Feinabstimmens angewiesen zu sein. Trotz dieser Fortschritte konzentrieren sich aktuelle Arbeiten zum LLM-Denken hauptsächlich auf mathematische und Programmierdomänen, was größtenteils auf die Datenfülle und die einfache Überprüfbarkeit von Antworten zurückzuführen ist. Dies schränkt die Anwendbarkeit und Generalisierbarkeit solcher Modelle auf breitere Domänen ein, in denen Fragen oft vielfältige Antwortdarstellungen aufweisen und Daten knapper sind. In diesem Artikel schlagen wir General-Reasoner vor, ein neuartiges Trainingsparadigma, das darauf abzielt, die Denkfähigkeiten von LLMs über diverse Domänen hinweg zu verbessern. Unsere wesentlichen Beiträge umfassen: (1) die Erstellung eines groß angelegten, hochwertigen Datensatzes von Fragen mit überprüfbaren Antworten, die durch Web-Crawling zusammengestellt wurden und ein breites Spektrum an Disziplinen abdecken; und (2) die Entwicklung eines generativen modellbasierten Antwortprüfers, der die traditionelle regelbasierte Überprüfung durch die Fähigkeiten zur Kettenlogik und Kontextbewusstheit ersetzt. Wir trainieren eine Reihe von Modellen und evaluieren sie anhand einer Vielzahl von Datensätzen, die breite Domänen wie Physik, Chemie, Finanzen, Elektronik usw. abdecken. Unsere umfassende Bewertung über diese 12 Benchmarks (z. B. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH und MATH AMC) zeigt, dass General-Reasoner bestehende Baseline-Methoden übertrifft und dabei eine robuste und generalisierbare Denkleistung erzielt, während es gleichzeitig eine überlegene Effektivität bei mathematischen Denkaufgaben beibehält.
Kürzlich entwickelte Large Reasoning Models (LRMs) haben im Vergleich zu traditionellen Large Language Models (LLMs) deutlich verbesserte Fähigkeiten im Bereich des logischen Denkens gezeigt, indem sie erweiterte Denkprozesse vor der Generierung endgültiger Antworten einbeziehen. Allerdings führt ein übermäßig langes Denken zu erheblichem Overhead in Bezug auf Token-Verbrauch und Latenz, was insbesondere bei einfachen Anfragen unnötig ist. In dieser Arbeit stellen wir Large Hybrid-Reasoning Models (LHRMs) vor, die erste Art von Modellen, die adaptiv entscheiden können, ob Denkprozesse basierend auf den kontextuellen Informationen von Benutzeranfragen durchgeführt werden sollen. Um dies zu erreichen, schlagen wir eine zweistufige Trainingspipeline vor, die Hybrid Fine-Tuning (HFT) als Kaltstart umfasst, gefolgt von Online-Reinforcement-Learning mit dem vorgeschlagenen Hybrid Group Policy Optimization (HGPO), um implizit zu lernen, den geeigneten Denkmodus auszuwählen. Darüber hinaus führen wir eine Metrik namens Hybrid Accuracy ein, um die Fähigkeit des Modells zum hybriden Denken quantitativ zu bewerten. Umfangreiche experimentelle Ergebnisse zeigen, dass LHRMs adaptiv hybrides Denken bei Anfragen unterschiedlicher Schwierigkeit und Art durchführen können. Sie übertreffen bestehende LRMs und LLMs in Bezug auf logisches Denken und allgemeine Fähigkeiten, während sie gleichzeitig die Effizienz deutlich verbessern. Insgesamt plädiert unsere Arbeit für eine Neubewertung des angemessenen Einsatzes erweiterter Denkprozesse und bietet einen soliden Ausgangspunkt für den Aufbau hybrider Denksysteme.
Trotz ihrer Stärken gelingt es großen Sprachmodellen (LLMs) oft nicht, ihr Vertrauen präzise zu kommunizieren, was es schwierig macht, einzuschätzen, wann sie falsch liegen könnten, und ihre Zuverlässigkeit einschränkt. In dieser Arbeit zeigen wir, dass Reasoning-Modelle – LLMs, die eine ausgedehnte Chain-of-Thought (CoT)-Argumentation durchführen – nicht nur bei der Problemlösung, sondern auch bei der präzisen Darstellung ihres Vertrauens eine überlegene Leistung erbringen. Insbesondere vergleichen wir sechs Reasoning-Modelle über sechs Datensätze hinweg und stellen fest, dass sie in 33 von 36 Szenarien eine deutlich bessere Kalibrierung des Vertrauens erreichen als ihre nicht-reasoning-basierten Gegenstücke. Unsere detaillierte Analyse zeigt, dass diese Verbesserungen in der Kalibrierung auf das langsame Denkverhalten der Reasoning-Modelle zurückzuführen sind – wie das Erkunden alternativer Ansätze und das Rückverfolgen von Schritten –, das es ihnen ermöglicht, ihr Vertrauen dynamisch während des CoT anzupassen und es dadurch zunehmend präziser zu machen. Insbesondere stellen wir fest, dass Reasoning-Modelle im Verlauf des CoT immer besser kalibriert werden, ein Trend, der bei nicht-reasoning-basierten Modellen nicht zu beobachten ist. Darüber hinaus führt das Entfernen des langsamen Denkverhaltens aus dem CoT zu einem signifikanten Rückgang der Kalibrierung. Schließlich zeigen wir, dass diese Verbesserungen nicht auf Reasoning-Modelle beschränkt sind – auch nicht-reasoning-basierte Modelle profitieren, wenn sie durch In-Context-Learning zum langsamen Denken angeleitet werden.
Aktuelle sprachmodelle, die auf logisches Denken ausgerichtet sind, erreichen hohe Genauigkeit, indem sie umfangreiche Zwischenschritte der Argumentation generieren, bevor sie endgültige Antworten liefern. Während dieser Ansatz effektiv ist, um Probleme zu lösen, die logisches Denken erfordern, erhöhen lange Argumentationspfade den Speicherbedarf und den Durchsatz der Token-Generierung erheblich, was die praktische Anwendung solcher Modelle einschränkt. Wir schlagen Reasoning Path Compression (RPC) vor, eine trainingsfreie Methode, die die Inferenz beschleunigt, indem sie die semantische Sparsamkeit von Argumentationspfaden nutzt. RPC komprimiert den KV-Cache periodisch, indem es den KV-Cache beibehält, der hohe Wichtigkeitsscores erhält, die mithilfe eines Auswahlfensters berechnet werden, das aus kürzlich generierten Abfragen besteht. Experimente zeigen, dass RPC den Generierungsdurchsatz von QwQ-32B um bis zu das 1,60-fache im Vergleich zur Inferenz mit vollständigem KV-Cache verbessert, bei einem Genauigkeitsverlust von 1,2 % im AIME-2024-Benchmark. Unsere Ergebnisse zeigen, dass die semantische Sparsamkeit in Argumentationspfaden effektiv für die Kompression genutzt werden kann, was einen praktischen Weg zur effizienten Bereitstellung von logisch denkenden LLMs bietet. Unser Code ist verfügbar unter https://github.com/jiwonsong-dev/ReasoningPathCompression.
Die Entwicklung allgemeiner Fähigkeiten zum logischen Denken stellt seit langem eine Herausforderung in der KI-Forschung dar. Aktuelle Studien zu großen Sprachmodellen (LLMs), wie DeepSeek-R1, haben gezeigt, dass Reinforcement-Learning-Techniken wie GRPO vortrainierte LLMs dazu befähigen können, logische Fähigkeiten anhand einfacher Frage-Antwort-Paare zu entwickeln. In diesem Artikel streben wir an, visuelle Sprachmodelle (VLMs) durch Reinforcement Learning und visuelle Frage-Antwort-Paare darauf zu trainieren, logisches Denken auf Bilddaten anzuwenden, ohne explizite Chain-of-Thought (CoT)-Überwachung. Unsere Ergebnisse zeigen, dass die einfache Anwendung von Reinforcement Learning auf ein VLM – indem das Modell dazu aufgefordert wird, eine Denkkette zu erstellen, bevor es eine Antwort liefert – dazu führen kann, dass das Modell Abkürzungen bei einfachen Fragen entwickelt und dadurch seine Fähigkeit zur Generalisierung auf unbekannte Datenverteilungen verringert. Wir argumentieren, dass der Schlüssel zur Vermeidung von Abkürzungslernen darin besteht, das Modell dazu zu ermutigen, Bilder vor dem logischen Denken zu interpretieren. Daher trainieren wir das Modell, sich an ein Beschreibung-Denken-Antwort-Ausgabeformat zu halten: Zunächst wird eine detaillierte Beschreibung für ein Bild generiert, gefolgt von der Konstruktion einer umfangreichen Denkkette. Wenn unser Modell, Visionary-R1, auf 273K CoT-freien visuellen Frage-Antwort-Paaren trainiert wird und dabei ausschließlich Reinforcement Learning verwendet, übertrifft es starke multimodale Modelle wie GPT-4o, Claude3.5-Sonnet und Gemini-1.5-Pro in mehreren Benchmarks für visuelles logisches Denken.
Intelligente Spielerstellung stellt einen bahnbrechenden Fortschritt in der Spieleentwicklung dar, indem generative künstliche Intelligenz eingesetzt wird, um Spielinhalte dynamisch zu generieren und zu verbessern. Trotz bemerkenswerter Fortschritte bei generativen Modellen bleibt die umfassende Synthese hochwertiger Spielressourcen, einschließlich sowohl Bilder als auch Videos, eine herausfordernde Grenze. Um hochwertige Spielinhalte zu erstellen, die gleichzeitig den Vorlieben der Spieler entsprechen und die Effizienz der Designer erheblich steigern, präsentieren wir Hunyuan-Game, ein innovatives Projekt, das darauf abzielt, die intelligente Spielproduktion zu revolutionieren. Hunyuan-Game umfasst zwei Hauptbereiche: Bildgenerierung und Videogenerierung. Die Bildgenerierungskomponente basiert auf einem umfangreichen Datensatz, der Milliarden von Spielbildern umfasst, was zur Entwicklung einer Gruppe von maßgeschneiderten Bildgenerierungsmodellen für Spielszenarien führt: (1) Allgemeine Text-zu-Bild-Generierung. (2) Generierung von Spielvisuellen Effekten, einschließlich Text-zu-Effekt und referenzbildbasierter Generierung von Spielvisuellen Effekten. (3) Transparente Bildgenerierung für Charaktere, Szenen und Spielvisuelle Effekte. (4) Spielcharaktergenerierung basierend auf Skizzen, Schwarz-Weiß-Bildern und Weißmodellen. Die Videogenerierungskomponente basiert auf einem umfassenden Datensatz von Millionen von Spiel- und Anime-Videos, was zur Entwicklung von fünf Kernalgorithmen führt, die jeweils kritische Schmerzpunkte in der Spieleentwicklung adressieren und eine robuste Anpassung an diverse Spielvideoszenarien aufweisen: (1) Bild-zu-Video-Generierung. (2) 360 A/T-Pose-Avatar-Video-Synthese. (3) Dynamische Illustrationen-Generierung. (4) Generative Video-Superauflösung. (5) Interaktive Spielvideo-Generierung. Diese Bild- und Videogenerierungsmodelle zeigen nicht nur ein hohes Maß an ästhetischem Ausdruck, sondern integrieren auch tiefgehend domänenspezifisches Wissen und etablieren ein systematisches Verständnis verschiedener Spiel- und Anime-Kunststile.
Große multimodale Modelle (LMMs) haben sich kürzlich als leistungsstarkes Werkzeug für das Verständnis langer Videos (Long Video Understanding, LVU) erwiesen, was die Entwicklung standardisierter LVU-Benchmarks zur Bewertung ihrer Leistung vorangetrieben hat. Unsere Untersuchung offenbart jedoch eine ernüchternde Erkenntnis über die bestehenden LVU-Benchmarks. Erstens stützen sich die meisten vorhandenen Benchmarks stark auf Multiple-Choice-Fragen (MCQs), deren Bewertungsergebnisse aufgrund der Möglichkeit, die richtige Antwort zu erraten, überhöht sind. Zweitens verfügt ein erheblicher Teil der Fragen in diesen Benchmarks über starke Vorannahmen, die es Modellen ermöglichen, direkt zu antworten, ohne das Eingabevideo überhaupt zu betrachten. Beispielsweise kann Gemini-1.5-Pro eine Genauigkeit von über 50 % erreichen, wenn ein zufälliges Frame aus einem langen Video auf Video-MME gegeben wird. Wir beobachten auch, dass eine Erhöhung der Anzahl der Frames nicht zwangsläufig zu einer Verbesserung in den bestehenden Benchmarks führt, was kontraintuitiv ist. Infolgedessen werden die Gültigkeit und Robustheit der aktuellen LVU-Benchmarks untergraben, was eine zuverlässige Bewertung der Fähigkeit von LMMs, lange Videos zu verstehen, behindert. Um dieses Problem zu lösen, schlagen wir VideoEval-Pro vor, einen realistischen LVU-Benchmark, der Fragen mit offenen Kurzantworten enthält, die ein echtes Verständnis des gesamten Videos erfordern. VideoEval-Pro bewertet sowohl das Verständnis auf Segmentebene als auch das vollständige Videoverständnis durch Wahrnehmungs- und Schlussfolgerungsaufgaben. Durch die Bewertung von 21 proprietären und Open-Source-Video-LMMs kommen wir zu folgenden Ergebnissen: (1) Video-LMMs zeigen drastische Leistungseinbrüche (>25 %) bei offenen Fragen im Vergleich zu MCQs; (2) überraschenderweise führen höhere MCQ-Ergebnisse nicht zu höheren offenen Antworten auf VideoEval-Pro; (3) im Vergleich zu anderen MCQ-Benchmarks profitiert VideoEval-Pro stärker von einer Erhöhung der Anzahl der Eingabeframes. Unsere Ergebnisse zeigen, dass VideoEval-Pro ein realistischeres und zuverlässigeres Maß für das Verständnis langer Videos bietet und einen klareren Einblick in die Fortschritte in diesem Bereich ermöglicht.
Code-Switching (CS) stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, doch seine Verständlichkeit bleibt in LLMs weitgehend unerforscht. Wir stellen CS-Sum vor, um die Verständlichkeit von CS durch LLMs anhand der Zusammenfassung von CS-Dialogen ins Englische zu bewerten. CS-Sum ist der erste Benchmark für die Zusammenfassung von CS-Dialogen in den Sprachpaaren Mandarin-Englisch (EN-ZH), Tamil-Englisch (EN-TA) und Malaiisch-Englisch (EN-MS), mit jeweils 900–1300 manuell annotierten Dialogen pro Sprachpaar. Bei der Bewertung von zehn LLMs, einschließlich Open- und Closed-Source-Modellen, analysieren wir die Leistung in den Ansätzen Few-Shot, Translate-Summarize und Fine-Tuning (LoRA, QLoRA auf synthetischen Daten). Unsere Ergebnisse zeigen, dass trotz hoher Werte bei automatisierten Metriken, LLMs subtile Fehler machen, die die vollständige Bedeutung des Dialogs verändern. Zu diesem Zweck führen wir die drei häufigsten Fehlertypen ein, die LLMs bei der Verarbeitung von CS-Eingaben machen. Die Fehlerraten variieren je nach CS-Paar und LLM, wobei einige LLMs bei bestimmten Sprachpaaren häufiger Fehler aufweisen, was die Notwendigkeit einer spezialisierten Schulung auf Code-Switching-Daten unterstreicht.
LLM-Pruning hat sich als vielversprechende Technologie zur Komprimierung von LLMs erwiesen, die deren Einsatz auf ressourcenbeschränkten Geräten ermöglicht. Aktuelle Methoden erfordern jedoch typischerweise Zugriff auf öffentliche Kalibrierungsdaten, die in datenschutzsensiblen Bereichen schwer zu beschaffen sein können. Um dieses Problem zu lösen, stellen wir FedPrLLM vor, ein umfassendes Framework für föderiertes Pruning, das für die datenschutzbewahrende Komprimierung von LLMs entwickelt wurde. In FedPrLLM muss jeder Client lediglich eine Pruning-Maskenmatrix basierend auf seinen lokalen Kalibrierungsdaten berechnen und diese mit dem Server teilen, um das globale Modell zu beschneiden. Dieser Ansatz ermöglicht eine kollaborative Beschneidung des globalen Modells unter Nutzung des Wissens jedes Clients, während die lokale Datenprivatheit gewahrt bleibt. Zusätzlich führen wir umfangreiche Experimente durch, um verschiedene Möglichkeiten innerhalb des FedPrLLM-Frameworks zu untersuchen, darunter verschiedene Vergleichsgruppen, Pruning-Strategien und die Entscheidung zur Gewichtsskalierung. Unsere umfassende Auswertung zeigt, dass One-Shot-Pruning mit Layer-Vergleich und ohne Gewichtsskalierung die optimale Wahl innerhalb des FedPrLLM-Frameworks ist. Wir hoffen, dass unsere Arbeit zukünftige Bemühungen zur Beschneidung von LLMs in datenschutzsensiblen Bereichen unterstützen wird. Unser Code ist verfügbar unter https://github.com/Pengxin-Guo/FedPrLLM.
Unsichtbare Bildwasserzeichen können den Bildbesitz schützen und den böswilligen Missbrauch visueller generativer Modelle verhindern. Bisherige generative Wasserzeichenmethoden sind jedoch hauptsächlich für Diffusionsmodelle konzipiert, während die Wasserzeicheneinbettung für autoregressive Bildgenerationsmodelle weitgehend unerforscht bleibt. Wir stellen IndexMark vor, ein trainingsfreies Wasserzeichenframework für autoregressive Bildgenerationsmodelle. IndexMark ist von der Redundanzeigenschaft des Codebuchs inspiriert: Das Ersetzen autoregressiv generierter Indizes durch ähnliche Indizes führt zu vernachlässigbaren visuellen Unterschieden. Die Kernkomponente von IndexMark ist eine einfache, aber effektive Match-then-Replace-Methode, die sorgfältig Wasserzeichen-Tokens aus dem Codebuch basierend auf der Token-Ähnlichkeit auswählt und die Verwendung von Wasserzeichen-Tokens durch Token-Ersetzung fördert, wodurch das Wasserzeichen eingebettet wird, ohne die Bildqualität zu beeinträchtigen. Die Wasserzeichenverifizierung erfolgt durch die Berechnung des Anteils von Wasserzeichen-Tokens in generierten Bildern, wobei die Genauigkeit durch einen Index-Encoder weiter verbessert wird. Darüber hinaus führen wir ein ergänzendes Validierungsschema ein, um die Robustheit gegen Zuschneideangriffe zu erhöhen. Experimente zeigen, dass IndexMark in Bezug auf Bildqualität und Verifizierungsgenauigkeit state-of-the-art Leistungen erzielt und Robustheit gegen verschiedene Störungen aufweist, darunter Zuschneiden, Rauschen, Gaußsche Unschärfe, zufälliges Löschen, Farbveränderungen und JPEG-Kompression.
Trotz weit verbreiteter Nutzung leiden multimodale große Sprachmodelle (MLLMs) unter Leistungseinbußen, wenn sie mit unbekannten Anfragen unter Verteilungsverschiebungen konfrontiert werden. Bestehende Methoden zur Verbesserung der Generalisierung von MLLMs erfordern typischerweise entweder mehr Instruktionsdaten oder größere, fortschrittlichere Modellarchitekturen, was beides erheblichen menschlichen Arbeitsaufwand oder Rechenkosten verursacht. In dieser Arbeit verfolgen wir einen alternativen Ansatz, um die Robustheit von MLLMs unter Verteilungsverschiebungen aus einer Repräsentationslernperspektive zu verbessern. Inspiriert vom Informationsengpassprinzip (Information Bottleneck, IB) leiten wir eine variationsbasierte untere Schranke des IB für MLLMs ab und entwickeln eine praktische Implementierung, das Visual Instruction Bottleneck Tuning (Vittle). Anschließend liefern wir eine theoretische Rechtfertigung für Vittle, indem wir seine Verbindung zu einem informationstheoretischen Robustheitsmaß für MLLMs aufzeigen. Die empirische Validierung von drei MLLMs bei offenen und geschlossenen Frage-Antwort-Aufgaben sowie der Erkennung von Objekthalluzinationen über 45 Datensätze, einschließlich 30 Szenarien mit Verteilungsverschiebungen, zeigt, dass Vittle die Robustheit von MLLMs unter Verschiebungen konsequent verbessert, indem es das Lernen einer minimal ausreichenden Repräsentation anstrebt.
Da die Größe großer Sprachmodelle exponentiell wächst, ist der GPU-Speicher zu einem Engpass bei der Anpassung dieser Modelle an nachgelagerte Aufgaben geworden. In diesem Artikel streben wir an, die Grenzen des speichereffizienten Trainings zu erweitern, indem wir den Speicherverbrauch für Modellgewichte, Gradienten und Optimiererzustände innerhalb eines einheitlichen Frameworks minimieren. Unsere Idee besteht darin, sowohl Gradienten als auch Optimiererzustände durch die Verwendung von Optimierung nullter Ordnung zu eliminieren, die Gradienten durch die Störung von Gewichten während der Vorwärtspassage approximiert, um Gradientenrichtungen zu identifizieren. Um den Speicherverbrauch für Gewichte zu minimieren, setzen wir Modellquantisierung ein, z. B. die Umwandlung von bfloat16 in int4. Die direkte Anwendung von Optimierung nullter Ordnung auf quantisierte Gewichte ist jedoch aufgrund der Präzisionslücke zwischen diskreten Gewichten und kontinuierlichen Gradienten nicht praktikabel, was sonst eine Dequantisierung und Requantisierung erfordern würde. Um diese Herausforderung zu bewältigen, schlagen wir Quantized Zeroth-order Optimization (QZO) vor, einen neuartigen Ansatz, der die kontinuierliche Quantisierungsskala zur Gradientenschätzung stört und eine Methode zur Begrenzung der Richtungsableitung verwendet, um das Training zu stabilisieren. QZO steht orthogonal zu sowohl skalarbasierten als auch codebuchbasierten Post-Training-Quantisierungsmethoden. Im Vergleich zur Feinabstimmung aller Parameter in bfloat16 kann QZO die gesamten Speicherkosten für 4-Bit-LLMs um mehr als das 18-fache reduzieren und ermöglicht die Feinabstimmung von Llama-2-13B und Stable Diffusion 3.5 Large innerhalb einer einzelnen 24GB-GPU.
Trotz beeindruckender Fortschritte bei Visual-Language-Modellen (VLMs) für multimodale Aufgaben beschränkt deren Abhängigkeit von RGB-Eingaben das präzise räumliche Verständnis. Bestehende Methoden zur Integration räumlicher Hinweise, wie Punktwolken oder Tiefeninformationen, erfordern entweder spezialisierte Sensoren oder scheitern daran, Tiefeninformationen effektiv für höherwertige Schlussfolgerungen zu nutzen. Zu diesem Zweck schlagen wir eine neuartige Methode zur räumlichen Wahrnehmung und Schlussfolgerung vor, genannt SSR, ein neuartiges Framework, das Roh-Tiefendaten in strukturierte, interpretierbare textuelle Begründungen transformiert. Diese textuellen Begründungen dienen als aussagekräftige Zwischenrepräsentationen, um die räumlichen Schlussfolgerungsfähigkeiten erheblich zu verbessern. Zusätzlich nutzen wir Wissensdistillation, um die generierten Begründungen in kompakte latente Einbettungen zu komprimieren, die eine ressourceneffiziente und Plug-and-Play-Integration in bestehende VLMs ohne erneutes Training ermöglichen. Um eine umfassende Bewertung zu ermöglichen, führen wir einen neuen Datensatz namens SSR-CoT ein, einen millionenfachen visuell-sprachlichen Schlussfolgerungsdatensatz, der mit Zwischenannotationen zur räumlichen Schlussfolgerung angereichert ist, und präsentieren SSRBench, einen umfassenden Multi-Task-Benchmark. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass SSR die Tiefennutzung erheblich verbessert und die räumliche Schlussfolgerung fördert, wodurch VLMs in Richtung eines menschenähnlicheren multimodalen Verständnisses vorangetrieben werden. Unsere Projektseite finden Sie unter https://yliu-cs.github.io/SSR.
Mixture-of-Experts (MoE)-Architekturen in Large Reasoning Models (LRMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens erreicht, indem sie gezielt Experten aktivieren, um strukturierte kognitive Prozesse zu ermöglichen. Trotz bemerkenswerter Fortschritte leiden bestehende Reasoning-Modelle oft unter kognitiven Ineffizienzen wie Überdenken und Unterdenken. Um diese Einschränkungen zu adressieren, führen wir eine neuartige Inferenzzeit-Steuerungsmethode namens Reinforcing Cognitive Experts (RICE) ein, die darauf abzielt, die Reasoning-Leistung ohne zusätzliches Training oder komplexe Heuristiken zu verbessern. Durch die Nutzung von normalisierter Pointwise Mutual Information (nPMI) identifizieren wir systematisch spezialisierte Experten, sogenannte „kognitive Experten“, die Meta-Level-Reasoning-Operationen orchestrieren, die durch Tokens wie „<think>“ charakterisiert sind. Empirische Auswertungen mit führenden MoE-basierten LRMs (DeepSeek-R1 und Qwen3-235B) auf strengen quantitativen und wissenschaftlichen Reasoning-Benchmarks zeigen deutliche und konsistente Verbesserungen in der Reasoning-Genauigkeit, kognitiven Effizienz und domänenübergreifenden Generalisierung. Entscheidend ist, dass unser leichtgewichtiger Ansatz gängige Reasoning-Steuerungstechniken wie Prompt-Design und Decoding-Einschränkungen deutlich übertrifft, während gleichzeitig die allgemeinen Anweisungsbefolgungskompetenzen des Modells erhalten bleiben. Diese Ergebnisse unterstreichen die Verstärkung kognitiver Experten als eine vielversprechende, praktische und interpretierbare Richtung zur Verbesserung der kognitiven Effizienz in fortschrittlichen Reasoning-Modellen.
Generative KI-Suche revolutioniert die Informationsbeschaffung, indem sie End-to-End-Antworten auf komplexe Anfragen bietet und so die Abhängigkeit der Nutzer vom manuellen Durchsuchen und Zusammenfassen mehrerer Webseiten verringert. Während dieses Paradigma den Komfort erhöht, unterbricht es jedoch den feedbackgesteuerten Verbesserungsprozess, der historisch die Entwicklung der traditionellen Websuche vorangetrieben hat. Websuchsysteme können ihre Ranking-Modelle kontinuierlich verbessern, indem sie umfangreiche, detaillierte Nutzerfeedbackdaten (z. B. Klicks, Verweildauer) auf Dokumentebene sammeln. Im Gegensatz dazu operiert die generative KI-Suche über eine viel längere Suchpipeline, die Abfragezerlegung, Dokumentenabruf und Antwortgenerierung umfasst, erhält jedoch typischerweise nur grobkörniges Feedback zur endgültigen Antwort. Dies führt zu einer Unterbrechung des Feedbackkreislaufs, bei der das Nutzerfeedback für das Endergebnis nicht effektiv auf spezifische Systemkomponenten zurückgeführt werden kann, was die Verbesserung jeder Zwischenstufe und die Aufrechterhaltung des Feedbackkreislaufs erschwert. In diesem Artikel stellen wir uns NExT-Search vor, ein Paradigma der nächsten Generation, das darauf abzielt, detailliertes, prozessbasiertes Feedback in die generative KI-Suche zurückzuführen. NExT-Search integriert zwei komplementäre Modi: den User Debug Mode, der engagierten Nutzern ermöglicht, in Schlüsselphasen einzugreifen; und den Shadow User Mode, in dem ein personalisierter Nutzeragent die Präferenzen des Nutzers simuliert und KI-gestütztes Feedback für weniger interaktive Nutzer bereitstellt. Darüber hinaus skizzieren wir, wie diese Feedbacksignale durch Online-Anpassung, die aktuelle Suchergebnisse in Echtzeit verfeinert, und Offline-Updates, die Interaktionsprotokolle sammeln, um periodisch Abfragezerlegungs-, Abruf- und Generierungsmodelle zu optimieren, genutzt werden können. Indem NExT-Search die menschliche Kontrolle über Schlüsselphasen der generativen KI-Suchpipeline wiederherstellt, bietet es eine vielversprechende Richtung für die Entwicklung von feedbackreichen KI-Suchsystemen, die sich kontinuierlich parallel zum menschlichen Feedback weiterentwickeln können.
Da Sprachmodelle immer leistungsfähiger und ausgefeilter werden, ist es entscheidend, dass sie vertrauenswürdig und zuverlässig bleiben. Es gibt besorgniserregende vorläufige Hinweise darauf, dass Modelle versuchen könnten, ihre Betreiber zu täuschen oder Geheimnisse vor ihnen zu bewahren. Um die Fähigkeit aktueller Techniken zu untersuchen, solches verborgenes Wissen zu enthüllen, trainieren wir ein Taboo-Modell: ein Sprachmodell, das ein bestimmtes Geheimwort beschreibt, ohne es explizit zu nennen. Wichtig ist, dass das Geheimwort dem Modell weder in seinen Trainingsdaten noch in der Eingabeaufforderung präsentiert wird. Anschließend untersuchen wir Methoden, um dieses Geheimnis aufzudecken. Zunächst bewerten wir nicht-interpretierbare (Black-Box-)Ansätze. Danach entwickeln wir weitgehend automatisierte Strategien, die auf mechanistischen Interpretierbarkeitstechniken basieren, einschließlich Logit-Lens und spärlichen Autoencodern. Die Auswertung zeigt, dass beide Ansätze in unserem Proof-of-Concept-Setting effektiv sind, um das Geheimwort zu enthüllen. Unsere Ergebnisse unterstreichen das Potenzial dieser Ansätze zur Enthüllung verborgenen Wissens und deuten auf mehrere vielversprechende Wege für zukünftige Arbeiten hin, einschließlich der Testung und Verfeinerung dieser Methoden an komplexeren Modellorganismen. Diese Arbeit soll ein Schritt zur Lösung des entscheidenden Problems der Enthüllung geheimen Wissens aus Sprachmodellen sein und damit zu deren sicheren und zuverlässigen Einsatz beitragen.
Wir stellen Vox-Profile vor, einen umfassenden Benchmark zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften mithilfe von Sprach-Foundation-Modellen. Im Gegensatz zu bestehenden Arbeiten, die sich auf eine einzelne Dimension von Sprechermerkmalen konzentrieren, bietet Vox-Profile ganzheitliche und mehrdimensionale Profile, die sowohl statische Sprechermerkmale (z. B. Alter, Geschlecht, Akzent) als auch dynamische Spracheigenschaften (z. B. Emotion, Sprachfluss) widerspiegeln. Dieser Benchmark ist in der Sprachwissenschaft und Linguistik verankert und wurde in Zusammenarbeit mit Fachexperten entwickelt, um Sprecher- und Spracheigenschaften präzise zu erfassen. Wir berichten über Benchmark-Experimente mit mehr als 15 öffentlich verfügbaren Sprachdatensätzen und mehreren weit verbreiteten Sprach-Foundation-Modellen, die verschiedene statische und dynamische Sprecher- und Spracheigenschaften abdecken. Neben den Benchmark-Experimenten zeigen wir mehrere Downstream-Anwendungen, die durch Vox-Profile unterstützt werden. Erstens demonstrieren wir, dass Vox-Profile bestehende Spracherkennungsdatensätze erweitern kann, um die Variabilität der ASR-Leistung zu analysieren. Vox-Profile wird auch als Werkzeug zur Bewertung der Leistung von Sprachgenerierungssystemen eingesetzt. Schließlich bewerten wir die Qualität unserer automatisierten Profile durch den Vergleich mit menschlichen Bewertungen und zeigen konvergente Validität. Vox-Profile ist öffentlich verfügbar unter: https://github.com/tiantiaf0627/vox-profile-release.
Gemini wird zunehmend eingesetzt, um Aufgaben im Namen von Nutzern auszuführen, wobei Funktionen wie Funktionsaufrufe und Werkzeugnutzung es dem Modell ermöglichen, auf Nutzerdaten zuzugreifen. Einige Werkzeuge erfordern jedoch den Zugriff auf nicht vertrauenswürdige Daten, was Risiken mit sich bringt. Angreifer können bösartige Anweisungen in nicht vertrauenswürdige Daten einbetten, die dazu führen, dass das Modell von den Erwartungen des Nutzers abweicht und dessen Daten oder Berechtigungen falsch handhabt. In diesem Bericht legen wir den Ansatz von Google DeepMind zur Bewertung der adversarischen Robustheit von Gemini-Modellen dar und beschreiben die wichtigsten Erkenntnisse aus diesem Prozess. Wir testen, wie Gemini gegen einen ausgeklügelten Angreifer abschneidet, indem wir ein adversarisches Bewertungsframework einsetzen, das eine Reihe adaptiver Angriffstechniken kontinuierlich gegen vergangene, aktuelle und zukünftige Versionen von Gemini anwendet. Wir beschreiben, wie diese fortlaufenden Bewertungen direkt dazu beitragen, Gemini widerstandsfähiger gegen Manipulationen zu machen.
Die Destillation hat sich als praktischer und effektiver Ansatz erwiesen, um die Fähigkeiten von Open-Source-Sprachmodellen im Bereich des logischen Denkens zu verbessern. In dieser Arbeit führen wir eine groß angelegte empirische Studie zur Destillation von Denkdaten durch, indem wir verifizierte Ausgaben von drei state-of-the-art Lehrer-Modellen – AM-Thinking-v1, Qwen3-235B-A22B und DeepSeek-R1 – auf einem gemeinsamen Korpus von 1,89 Millionen Anfragen sammeln. Wir erstellen drei parallele Datensätze und analysieren deren Verteilungen, wobei sich zeigt, dass die mit AM-Thinking-v1 destillierten Daten eine größere Vielfalt in der Token-Länge und eine geringere Perplexität aufweisen. Schüler-Modelle, die auf jedem dieser Datensätze trainiert wurden, werden auf Denk-Benchmarks wie AIME2024, AIME2025, MATH500 und LiveCodeBench evaluiert. Das auf AM basierende Modell erzielt durchweg die besten Leistungen (z. B. 84,3 auf AIME2024, 72,2 auf AIME2025, 98,4 auf MATH500 und 65,9 auf LiveCodeBench) und zeigt ein adaptives Ausgabeverhalten – es produziert längere Antworten für schwierigere Aufgaben und kürzere für einfachere Aufgaben. Diese Ergebnisse unterstreichen den Wert von hochwertigen, verifizierten Denkpfaden. Wir veröffentlichen die mit AM-Thinking-v1 und Qwen3-235B-A22B destillierten Datensätze, um zukünftige Forschungen zu offenen und leistungsstarken, auf logisches Denken ausgerichteten Sprachmodellen zu unterstützen. Die Datensätze sind öffentlich auf Hugging Face verfügbar: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
Reinforcement Finetuning (RFT) hat sich zu einem Standardansatz entwickelt, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens zu verbessern. Dennoch ist seine Auswirkung auf die Vertrauenswürdigkeit der Modelle noch weitgehend unerforscht. In dieser Arbeit identifizieren und untersuchen wir systematisch einen kritischen Nebeneffekt von RFT, den wir als „Halluzinationssteuer“ bezeichnen: eine Verschlechterung des Ablehnungsverhaltens, die dazu führt, dass Modelle auf unbeantwortbare Fragen selbstbewusst halluzinierte Antworten liefern. Um dies zu untersuchen, stellen wir SUM (Synthetic Unanswerable Math) vor, einen hochwertigen Datensatz unbeantwortbarer mathematischer Probleme, der darauf abzielt, die Fähigkeit der Modelle zu testen, eine unbeantwortbare Frage durch logisches Schlussfolgern aus unzureichenden oder mehrdeutigen Informationen zu erkennen. Unsere Ergebnisse zeigen, dass das standardmäßige RFT-Training die Ablehnungsraten der Modelle um mehr als 80 % reduzieren kann, was die Tendenz der Modelle zur Halluzination erheblich erhöht. Wir demonstrieren weiterhin, dass die Einbindung von nur 10 % SUM während des RFT das angemessene Ablehnungsverhalten weitgehend wiederherstellt, mit minimalen Genauigkeitseinbußen bei lösbaren Aufgaben. Entscheidend ist, dass dieser Ansatz es LLMs ermöglicht, Rechenleistung zur Laufzeit zu nutzen, um über ihre eigene Unsicherheit und Wissensgrenzen nachzudenken, was die Generalisierung nicht nur auf domänenfremde mathematische Probleme, sondern auch auf faktische Frage-Antwort-Aufgaben verbessert.
Die Entwicklung effektiver, vernunftfähiger LLMs (Large Language Models) erfordert in der Regel ein Training mittels Reinforcement Learning mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) oder eine Destillation mit sorgfältig kuratierten langen Gedankenketten (Long Chain of Thoughts, CoT), die beide stark auf umfangreiche Trainingsdaten angewiesen sind. Dies stellt eine große Herausforderung dar, wenn die Menge an qualitativ hochwertigen Trainingsdaten begrenzt ist. Wir schlagen eine probeneffiziente, zweistufige Trainingsstrategie vor, um vernunftfähige LLMs unter begrenzter Aufsicht zu entwickeln. In der ersten Stufe „wärmen“ wir das Modell auf, indem wir lange CoTs aus einem Spielbereich, nämlich den Knights & Knaves (K&K)-Logikrätseln, destillieren, um allgemeine Denkfähigkeiten zu erwerben. In der zweiten Stufe wenden wir RLVR auf das aufgewärmte Modell an, wobei wir eine begrenzte Anzahl von Beispielen aus dem Zielbereich verwenden. Unsere Experimente zeigen, dass dieser zweiphasige Ansatz mehrere Vorteile bietet: (i) Die Aufwärmphase allein fördert generalisiertes Denken und führt zu Leistungsverbesserungen bei einer Reihe von Aufgaben, darunter MATH, HumanEval⁺ und MMLU-Pro. (ii) Wenn sowohl das Basismodell als auch das aufgewärmte Modell mit RLVR auf demselben kleinen Datensatz (≤100 Beispiele) trainiert werden, übertrifft das aufgewärmte Modell das Basismodell konsistent. (iii) Das Aufwärmen vor dem RLVR-Training ermöglicht es einem Modell, die domänenübergreifende Generalisierbarkeit auch nach dem Training in einer spezifischen Domäne beizubehalten. (iv) Die Einführung der Aufwärmphase in den Prozess verbessert nicht nur die Genauigkeit, sondern auch die Gesamtprobeneffizienz während des RLVR-Trainings. Die Ergebnisse dieser Arbeit unterstreichen das Potenzial des Aufwärmens für den Aufbau robuster, vernunftfähiger LLMs in datenarmen Umgebungen.
Trotz ihres bemerkenswerten Erfolgs und ihrer breiten Anwendung in verschiedenen Workflows erzeugen Sprachmodelle manchmal unwahre Antworten. Unser begrenztes Verständnis darüber, wie Wahrhaftigkeit mechanistisch in diesen Modellen kodiert ist, gefährdet deren Zuverlässigkeit und Sicherheit. In diesem Artikel schlagen wir eine Methode zur Identifizierung von Repräsentationen der Wahrhaftigkeit auf Neuronenebene vor. Wir zeigen, dass Sprachmodelle Wahrheitsneuronen enthalten, die Wahrhaftigkeit in einer themenunabhängigen Weise kodieren. Experimente, die an Modellen unterschiedlicher Größe durchgeführt wurden, bestätigen die Existenz von Wahrheitsneuronen und zeigen, dass die Kodierung von Wahrhaftigkeit auf Neuronenebene eine Eigenschaft ist, die viele Sprachmodelle gemeinsam haben. Die Verteilungsmuster der Wahrheitsneuronen über die Schichten hinweg stimmen mit früheren Erkenntnissen zur Geometrie der Wahrhaftigkeit überein. Die selektive Unterdrückung der Aktivierungen von Wahrheitsneuronen, die durch den TruthfulQA-Datensatz identifiziert wurden, verschlechtert die Leistung sowohl auf TruthfulQA als auch auf anderen Benchmarks, was zeigt, dass die Mechanismen der Wahrhaftigkeit nicht an einen bestimmten Datensatz gebunden sind. Unsere Ergebnisse bieten neue Einblicke in die Mechanismen, die der Wahrhaftigkeit in Sprachmodellen zugrunde liegen, und weisen auf potenzielle Richtungen zur Verbesserung ihrer Vertrauenswürdigkeit und Zuverlässigkeit hin.
Die Sicherheit großer Sprachmodelle (LLMs) ist entscheidend für einen verantwortungsvollen Einsatz, doch bestehende Bewertungen priorisieren oft die Leistung gegenüber der Identifizierung von Fehlermustern. Wir stellen Phare vor, ein mehrsprachiges Diagnoseframework, um das Verhalten von LLMs in drei kritischen Dimensionen zu untersuchen und zu bewerten: Halluzination und Zuverlässigkeit, soziale Vorurteile sowie die Erzeugung schädlicher Inhalte. Unsere Bewertung von 17 modernsten LLMs zeigt systematische Schwachstellen in allen Sicherheitsdimensionen auf, darunter Sykophantie, Prompt-Empfindlichkeit und die Reproduktion von Stereotypen. Indem Phare diese spezifischen Fehlermuster hervorhebt, anstatt Modelle einfach nur zu bewerten, bietet es Forschern und Praktikern umsetzbare Erkenntnisse, um robustere, besser ausgerichtete und vertrauenswürdigere Sprachsysteme zu entwickeln.
Die rasante Weiterentwicklung von Techniken zur Fehlererkennung hat dazu geführt, dass mehr Schwachstellen entdeckt werden, als Entwickler vernünftigerweise beheben können, was einen dringenden Bedarf an effektiven Methoden zur automatisierten Programmreparatur (Automated Program Repair, APR) schafft. Die Komplexität moderner Fehler erschwert jedoch oft eine präzise und zuverlässige Ursachenanalyse. Um dieser Herausforderung zu begegnen, schlagen wir die Reparatur am Absturzort vor, um die Reparaturaufgabe zu vereinfachen und gleichzeitig das Risiko einer Ausnutzung zu mindern. Zusätzlich führen wir einen template-gesteuerten Ansatz zur Patch-Generierung ein, der die Token-Kosten von Large Language Models (LLMs) erheblich reduziert, während Effizienz und Wirksamkeit erhalten bleiben. Wir implementieren unser Prototyp-System, WILLIAMT, und evaluieren es im Vergleich zu modernsten APR-Tools. Unsere Ergebnisse zeigen, dass WILLIAMT in Kombination mit dem leistungsstärksten Agenten CodeRover-S die Token-Kosten um 45,9 % reduziert und die Fehlerbehebungsrate auf ARVO, einem Benchmark für echte Open-Source-Software-Schwachstellen, auf 73,5 % (+29,6 %) erhöht. Darüber hinaus demonstrieren wir, dass WILLIAMT auch ohne Zugriff auf führende LLMs effektiv funktionieren kann: Selbst ein lokales Modell, das auf einem Mac M4 Mini läuft, erreicht eine angemessene Reparaturrate. Diese Erkenntnisse unterstreichen die breite Anwendbarkeit und Skalierbarkeit von WILLIAMT.
Mit der rasanten Entwicklung leistungsstarker großer Sprachmodelle (LLMs) in den letzten Jahren kann nun eine Vielzahl von Software-Engineering-Aufgaben mithilfe von LLMs bewältigt werden, was die Produktivität und Skalierbarkeit erheblich steigert. Zahlreiche Benchmark-Datensätze wurden entwickelt, um die Programmierfähigkeiten dieser Modelle zu bewerten, wobei sie sich hauptsächlich auf Problemstellungen und Fehlerbehebungsaufgaben konzentrieren. Im Gegensatz dazu stellen wir einen neuen Programmier-Benchmark, MIGRATION-BENCH, mit einem besonderen Fokus vor: Code-Migration. MIGRATION-BENCH soll als umfassender Benchmark für die Migration von Java 8 zu den neuesten Long-Term-Support (LTS)-Versionen (Java 17, 21) dienen. MIGRATION-BENCH umfasst einen vollständigen Datensatz und eine Teilmenge, die mit 5.102 bzw. 300 Repositories ausgewählt wurde. Die ausgewählte Teilmenge wurde hinsichtlich Komplexität und Schwierigkeitsgrad kuratiert und bietet eine vielseitige Ressource zur Unterstützung der Forschung im Bereich der Code-Migration. Zusätzlich stellen wir ein umfassendes Bewertungsframework bereit, um eine rigorose und standardisierte Bewertung von LLMs bei dieser anspruchsvollen Aufgabe zu ermöglichen. Wir schlagen weiterhin SD-Feedback vor und zeigen, dass LLMs effektiv die Code-Migration auf Repository-Ebene zu Java 17 bewältigen können. Für die ausgewählte Teilmenge mit Claude-3.5-Sonnet-v2 erreicht SD-Feedback eine Erfolgsrate (pass@1) von 62,33 % bzw. 27,00 % für minimale und maximale Migration. Der Benchmark-Datensatz und der Quellcode sind verfügbar unter: https://huggingface.co/collections/AmazonScience und https://github.com/amazon-science/self_debug.
Sparse Mixture of Experts (SMoE) bietet eine vielversprechende Lösung, um die Modellkomplexität über die bloße Erhöhung der Tiefe oder Breite des Netzwerks hinaus zu skalieren. Wir argumentieren jedoch, dass ein effektives Training von SMoE aufgrund des suboptimalen Routing-Prozesses, bei dem die Experten, die Berechnungen durchführen, nicht direkt zum Routing-Prozess beitragen, nach wie vor eine Herausforderung darstellt. In dieser Arbeit schlagen wir einen Wettbewerbsmechanismus vor, ein neuartiges Verfahren, um Tokens an die Experten mit der höchsten neuronalen Antwort zu routen. Theoretisch zeigen wir, dass der Wettbewerbsmechanismus eine bessere Stichprobeneffizienz als das traditionelle Softmax-Routing aufweist. Darüber hinaus entwickeln wir CompeteSMoE, einen einfachen, aber effektiven Algorithmus, um große Sprachmodelle zu trainieren, indem ein Router eingesetzt wird, um die Wettbewerbspolitik zu erlernen, wodurch eine hohe Leistung bei geringem Trainingsaufwand erreicht wird. Unsere umfangreichen empirischen Auswertungen sowohl bei der visuellen Instruktionsoptimierung als auch bei der Sprachvorverarbeitung zeigen die Wirksamkeit, Robustheit und Skalierbarkeit von CompeteSMoE im Vergleich zu modernsten SMoE-Strategien. Wir haben die Implementierung unter folgender Adresse verfügbar gemacht: https://github.com/Fsoft-AIC/CompeteSMoE. Diese Arbeit ist eine verbesserte Version der vorherigen Studie unter arXiv:2402.02526.
Das Reasoning von Large Language Models (LLMs) für komplexe Aufgaben beinhaltet inhärent einen Kompromiss zwischen Lösungsgenauigkeit und Recheneffizienz. Der nachfolgende Schritt der Verifikation, der zwar die Leistung verbessern soll, erschwert diese Situation weiter, indem er einen eigenen anspruchsvollen Kompromiss einführt: anspruchsvolle Generative Reward Models (GenRMs) können rechenintensiv sein, wenn sie naiv mit LLMs zur Testzeit integriert werden, während einfachere, schnellere Methoden möglicherweise an Zuverlässigkeit mangeln. Um diese Herausforderungen zu bewältigen, führen wir FlexiVe ein, einen neuartigen generativen Verifizierer, der mithilfe einer flexiblen Zuweisung des Verifikationsbudgets (Flexible Allocation of Verification Budget) Rechenressourcen zwischen schnellem, zuverlässigem „Fast Thinking“ und sorgfältigem „Slow Thinking“ ausbalanciert. Wir schlagen außerdem die Solve-Detect-Verify-Pipeline vor, ein effizientes Inferenzzeit-Skalierungsframework, das FlexiVe intelligent integriert, proaktiv Lösungspunkte identifiziert, um gezielte Verifikation auszulösen und fokussiertes Feedback für den Solver bereitzustellen. Experimente zeigen, dass FlexiVe eine überlegene Genauigkeit bei der Identifizierung von Fehlern in Reasoning-Traces auf ProcessBench erreicht. Darüber hinaus übertrifft unser vollständiger Ansatz auf anspruchsvollen mathematischen Reasoning-Benchmarks (AIME 2024, AIME 2025 und CNMO) Baseline-Methoden wie Self-Consistency sowohl in der Reasoning-Genauigkeit als auch in der Inferenz-Effizienz. Unser System bietet eine skalierbare und effektive Lösung, um das Reasoning von LLMs zur Testzeit zu verbessern.
Test-Time Scaling (TTS) hat sich als effektiv erwiesen, um die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung zu verbessern. Die Verifikation spielt dabei eine Schlüsselrolle, da sie gleichzeitig (1) die Leistung bei der Schlussfolgerung und (2) die Recheneffizienz beeinflusst, was auf die Qualität und die Rechenkosten der Verifikation zurückzuführen ist. In dieser Arbeit stellen wir die konventionellen Paradigmen der Verifikation in Frage und unternehmen den ersten systematischen Versuch, die Auswirkungen der Verifikationsgranularität zu untersuchen – also wie häufig der Verifizierer während der Generierung aufgerufen wird, über die Überprüfung des finalen Outputs oder einzelner Generierungsschritte hinaus. Zu diesem Zweck führen wir Variable Granularity Search (VG-Search) ein, einen einheitlichen Algorithmus, der Beam Search und Best-of-N Sampling über einen einstellbaren Granularitätsparameter g verallgemeinert. Umfangreiche Experimente mit VG-Search unter variierenden Rechenbudgets, Generator-Verifizierer-Konfigurationen und Aufgabenmerkmalen zeigen, dass die dynamische Auswahl von g die Recheneffizienz und das Skalierungsverhalten verbessern kann. Aufbauend auf diesen Erkenntnissen schlagen wir adaptive VG-Search-Strategien vor, die Genauigkeitsgewinne von bis zu 3,1 % gegenüber Beam Search und 3,6 % gegenüber Best-of-N erzielen, während die FLOPs um über 52 % reduziert werden. Wir werden den Code Open-Source bereitstellen, um zukünftige Forschung zu unterstützen.
Mit der Weiterentwicklung von Nachschulungstechniken werden große Sprachmodelle (LLMs) zunehmend mit strukturierten Fähigkeiten zur mehrstufigen Argumentation erweitert, die oft durch bestärkendes Lernen optimiert werden. Diese argumentationsgestärkten Modelle übertreffen Standard-LLMs bei komplexen Aufgaben und bilden mittlerweile die Grundlage vieler kommerzieller LLM-APIs. Um jedoch proprietäres Verhalten zu schützen und die Ausführlichkeit zu reduzieren, verbergen Anbieter typischerweise die Argumentationsspuren und geben nur die endgültige Antwort zurück. Diese Undurchsichtigkeit führt zu einer kritischen Transparenzlücke: Nutzer werden für unsichtbare Argumentationstokens berechnet, die oft den Großteil der Kosten ausmachen, haben jedoch keine Möglichkeit, deren Authentizität zu überprüfen. Dies öffnet die Tür für Token-Zählungsinflation, bei der Anbieter die Token-Nutzung übermäßig melden oder synthetische, wenig aufwendige Tokens einfügen könnten, um die Gebühren zu erhöhen. Um dieses Problem zu lösen, schlagen wir CoIn vor, ein Verifizierungsframework, das sowohl die Menge als auch die semantische Gültigkeit versteckter Tokens überprüft. CoIn erstellt einen verifizierbaren Hash-Baum aus Token-Embedding-Fingerabdrücken, um die Token-Anzahl zu überprüfen, und verwendet Embedding-basiertes Relevanz-Matching, um fabrizierte Argumentationsinhalte zu erkennen. Experimente zeigen, dass CoIn, als vertrauenswürdiger Drittauditor eingesetzt, Token-Zählungsinflation mit einer Erfolgsrate von bis zu 94,7% effektiv erkennen kann, was die starke Fähigkeit zur Wiederherstellung der Abrechnungstransparenz in undurchsichtigen LLM-Diensten demonstriert. Der Datensatz und der Code sind unter https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn verfügbar.
Trotz bedeutender Fortschritte bei großen Sprachmodellen (LLMs) bleiben ihre Fähigkeiten zur Wissensspeicherung weitgehend unerforscht, was auf das Fehlen eines standardisierten und qualitativ hochwertigen Testumfelds zurückzuführen ist. In diesem Artikel stellen wir einen neuartigen, realitätsnahen und groß angelegten Benchmark zur Wissensinjektion vor, der sich kontinuierlich und ohne menschliches Eingreifen weiterentwickelt. Konkret präsentieren wir WikiDYK, das kürzlich hinzugefügte und von Menschen verfasste Fakten aus den „Wussten Sie schon...“-Einträgen von Wikipedia nutzt. Diese Einträge werden von erfahrenen Wikipedia-Redakteuren nach Kriterien wie Überprüfbarkeit und Klarheit sorgfältig ausgewählt. Jeder Eintrag wird in mehrere Frage-Antwort-Paare umgewandelt, die verschiedene Aufgabenformate abdecken – von einfachen Lückentexten bis hin zu komplexen Multi-Hop-Fragen. WikiDYK enthält 12.290 Fakten und 77.180 Fragen und ist nahtlos erweiterbar durch zukünftige Aktualisierungen von Wikipedia-Redakteuren. Umfangreiche Experimente mit fortgesetztem Vortraining offenbaren eine überraschende Erkenntnis: Trotz ihrer Verbreitung in modernen LLMs zeigen kausale Sprachmodelle (CLMs) deutlich schwächere Fähigkeiten zur Wissensspeicherung im Vergleich zu bidirektionalen Sprachmodellen (BiLMs), wobei sie eine um 23 % geringere Zuverlässigkeitsgenauigkeit aufweisen. Um die geringeren Größen aktueller BiLMs auszugleichen, führen wir ein modulares, kollaboratives Framework ein, das Ensembles von BiLMs als externe Wissensspeicher nutzt, um sie in LLMs zu integrieren. Experimente zeigen, dass unser Framework die Zuverlässigkeitsgenauigkeit um bis zu 29,1 % weiter verbessert.
Diese Forschung bietet eine einzigartige Bewertung, wie KI-Systeme die digitale Sprache der Generation Alpha (Gen Alpha, geboren 2010–2024) interpretieren. Als erste Kohorte, die gemeinsam mit KI aufwächst, sieht sich Gen Alpha neuen Formen von Online-Risiken ausgesetzt, die auf ein intensives digitales Engagement und eine wachsende Diskrepanz zwischen ihrer sich entwickelnden Kommunikation und bestehenden Sicherheitstools zurückzuführen sind. Ihre einzigartige Sprache, geprägt durch Gaming, Memes und KI-getriebene Trends, verbirgt oft schädliche Interaktionen vor menschlichen Moderatoren und automatisierten Systemen. Wir bewerten vier führende KI-Modelle (GPT-4, Claude, Gemini und Llama 3) hinsichtlich ihrer Fähigkeit, verschleierte Belästigung und Manipulation im Diskurs von Gen Alpha zu erkennen. Anhand eines Datensatzes von 100 aktuellen Ausdrücken aus Gaming-Plattformen, sozialen Medien und Videoinhalten zeigt die Studie kritische Verständnislücken mit direkten Auswirkungen auf die Online-Sicherheit auf. Diese Arbeit leistet folgende Beiträge: (1) einen erstmalig erstellten Datensatz, der Ausdrücke von Gen Alpha erfasst; (2) ein Rahmenwerk zur Verbesserung von KI-Moderationssystemen für den Jugendschutz; (3) eine multiperspektivische Bewertung, die KI-Systeme, menschliche Moderatoren und Eltern sowie direkte Beiträge von Gen Alpha-Mitforschenden umfasst; und (4) eine Analyse, wie linguistische Abweichungen die Verwundbarkeit von Jugendlichen erhöhen. Die Ergebnisse unterstreichen die dringende Notwendigkeit, Sicherheitssysteme neu zu gestalten, die auf die Kommunikation von Jugendlichen abgestimmt sind, insbesondere angesichts der Zurückhaltung von Gen Alpha, Hilfe zu suchen, wenn Erwachsene ihre digitale Welt nicht verstehen. Diese Studie kombiniert die Einsichten eines Gen Alpha-Forschers mit systematischer akademischer Analyse, um kritische Herausforderungen der digitalen Sicherheit zu adressieren.
Die Erkennung von KI-Risiken wird zunehmend schwieriger, da stärkere Modelle entstehen und neue Methoden wie Alignment Faking entwickeln, um diese Erkennungsversuche zu umgehen. Inspiriert davon, wie riskante Verhaltensweisen bei Menschen (z. B. illegale Aktivitäten, die anderen schaden können) manchmal durch stark verankerte Werte geleitet werden, glauben wir, dass die Identifizierung von Werten innerhalb von KI-Modellen ein Frühwarnsystem für riskante Verhaltensweisen von KI sein kann. Wir entwickeln LitmusValues, eine Evaluationspipeline, um die Prioritäten von KI-Modellen in Bezug auf eine Reihe von KI-Wertklassen aufzudecken. Anschließend sammeln wir AIRiskDilemmas, eine vielfältige Sammlung von Dilemmata, die Werte in Szenarien, die für KI-Sicherheitsrisiken wie Power Seeking relevant sind, gegeneinander ausspielen. Durch die Messung der Wertpriorisierung eines KI-Modells anhand seiner aggregierten Entscheidungen erhalten wir einen konsistenten Satz vorhergesagter Wertprioritäten, die potenzielle Risiken aufdecken. Wir zeigen, dass Werte in LitmusValues (einschließlich scheinbar harmloser wie Care) sowohl bereits bekannte riskante Verhaltensweisen in AIRiskDilemmas als auch unbekannte riskante Verhaltensweisen in HarmBench vorhersagen können.
Die Erkennung von Medienverzerrungen ist eine entscheidende Aufgabe, um eine faire und ausgewogene Informationsverbreitung zu gewährleisten, bleibt jedoch aufgrund der Subjektivität von Verzerrungen und der Knappheit hochwertiger annotierter Daten eine Herausforderung. In dieser Arbeit führen wir eine Satzebenen-Verzerrungsklassifizierung durch, indem wir ein RoBERTa-basiertes Modell auf dem von Experten annotierten BABE-Datensatz feinabstimmen. Mithilfe des McNemar-Tests und des gepaarten t-Tests mit 5x2 Kreuzvalidierung zeigen wir statistisch signifikante Verbesserungen der Leistung im Vergleich zu einem domänenadaptiv vortrainierten DA-RoBERTa-Basismodell. Darüber hinaus zeigt eine auf Aufmerksamkeit basierende Analyse, dass unser Modell häufige Fallstricke wie eine Überempfindlichkeit gegenüber politisch aufgeladenen Begriffen vermeidet und stattdessen sinnvollerweise kontextuell relevante Tokens berücksichtigt. Für eine umfassende Untersuchung von Medienverzerrungen präsentieren wir eine Pipeline, die unser Modell mit einem bereits existierenden Verzerrungstyp-Klassifikator kombiniert. Unser Verfahren zeigt eine gute Generalisierungsfähigkeit und Interpretierbarkeit, obwohl es durch die Satzebenen-Analyse und die begrenzte Datensatzgröße aufgrund des Mangels an größeren und fortschrittlicheren Verzerrungskorpora eingeschränkt ist. Wir diskutieren kontextbewusste Modellierung, Verzerrungsneutralisierung und fortgeschrittene Verzerrungstyp-Klassifizierung als potenzielle zukünftige Richtungen. Unsere Ergebnisse tragen dazu bei, robustere, erklärbare und sozial verantwortungsvolle NLP-Systeme zur Erkennung von Medienverzerrungen zu entwickeln.
In den letzten Jahren ist die Erstellung und der Konsum von Videoinhalten deutlich gestiegen. Die Gestaltung ansprechender Inhalte erfordert die sorgfältige Auswahl sowohl visueller als auch auditiver Elemente. Während die Kuratierung visueller Hinweise durch Techniken wie die Auswahl optimaler Blickwinkel oder Nachbearbeitung im Mittelpunkt der Medienproduktion stand, hat ihr natürliches Pendant, der Ton, keine vergleichbaren Fortschritte durchlaufen. Dies führt oft zu einer Diskrepanz zwischen visueller und akustischer Salienz. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe ein: die visuell gesteuerte akustische Hervorhebung, die darauf abzielt, den Ton so zu transformieren, dass er passende Hervorhebungseffekte liefert, die durch das begleitende Video gesteuert werden, und letztendlich ein harmonischeres audiovisuelles Erlebnis schafft. Wir schlagen ein flexibles, transformer-basiertes multimodales Framework vor, um diese Aufgabe zu lösen. Um unser Modell zu trainieren, führen wir auch einen neuen Datensatz ein – den „muddy mix“-Datensatz, der die akribische Gestaltung von Ton und Video in Filmen nutzt und eine Form der kostenlosen Überwachung bietet. Wir entwickeln einen Prozess zur Erzeugung von Pseudo-Daten, um schlecht gemischten Ton zu simulieren, der reale Szenarien durch einen dreistufigen Prozess – Trennung, Anpassung und Neumischung – nachahmt. Unser Ansatz übertrifft durchweg mehrere Baselines sowohl in der quantitativen als auch in der subjektiven Bewertung. Wir untersuchen auch systematisch die Auswirkungen verschiedener Arten von kontextueller Führung und Schwierigkeitsgrade des Datensatzes. Unsere Projektseite finden Sie hier: https://wikichao.github.io/VisAH/.
Multimodales Lernen verbessert die Wahrnehmungsfähigkeiten kognitiver Systeme, indem es Informationen aus verschiedenen sensorischen Modalitäten integriert. Bisherige Forschungen zur multimodalen Fusion gehen jedoch typischerweise von einer statischen Integration aus und berücksichtigen nicht vollständig die dynamischen Mechanismen, die im Gehirn zu finden sind. Insbesondere zeigt das Gehirn ein Phänomen der inversen Effektivität, bei dem schwächere unimodale Hinweise stärkere Vorteile bei der multisensorischen Integration bieten; umgekehrt wird der Fusionseffekt verringert, wenn die Hinweise einzelner Modalitäten stärker sind. Dieser Mechanismus ermöglicht es biologischen Systemen, robuste Kognition selbst bei knappen oder verrauschten Wahrnehmungshinweisen zu erreichen. Inspiriert von diesem biologischen Mechanismus untersuchen wir die Beziehung zwischen multimodaler Ausgabe und Informationen aus einzelnen Modalitäten und schlagen eine durch inverse Effektivität gesteuerte multimodale Fusionsstrategie (IEMF) vor. Durch die Integration dieser Strategie in neuronale Netze erreichen wir eine effizientere Integration mit verbesserter Modellleistung und Recheneffizienz, was eine Reduzierung der Rechenkosten um bis zu 50 % über verschiedene Fusionsmethoden hinweg demonstriert. Wir führen Experimente zur audiovisuellen Klassifikation, kontinuierlichem Lernen und Frage-Antwort-Aufgaben durch, um unsere Methode zu validieren. Die Ergebnisse zeigen durchweg, dass unsere Methode in diesen Aufgaben hervorragend abschneidet. Um die Universalität und Generalisierbarkeit zu überprüfen, führen wir auch Experimente mit Künstlichen Neuronalen Netzen (ANN) und Spiking Neural Networks (SNN) durch, wobei die Ergebnisse eine gute Anpassungsfähigkeit an beide Netzwerktypen zeigen. Unsere Forschung unterstreicht das Potenzial der Einbindung biologisch inspirierter Mechanismen in multimodale Netze und bietet vielversprechende Richtungen für die zukünftige Entwicklung multimodaler künstlicher Intelligenz. Der Code ist unter https://github.com/Brain-Cog-Lab/IEMF verfügbar.
Tokenisierung ist die erste – und oft unterschätzte – Ebene der Berechnung in Sprachmodellen. Während Chain-of-Thought (CoT)-Prompting Transformer-Modelle dazu befähigt, wiederkehrende Berechnungen durch die Externalisierung von Zwischenschritten anzunähern, zeigen wir, dass der Erfolg solcher Schlussfolgerungen grundlegend durch die Struktur der tokenisierten Eingaben begrenzt ist. Diese Arbeit präsentiert eine theoretische und empirische Untersuchung darüber, wie Tokenisierungsschemata, insbesondere subwortbasierte Methoden wie Byte-Pair Encoding (BPE), symbolische Berechnungen behindern, indem sie atomare Schlussfolgerungseinheiten zusammenführen oder verschleiern. Wir führen den Begriff der Token Awareness ein, um zu formalisieren, wie eine schlechte Token-Granularität die logische Ausrichtung stört und Modelle daran hindert, symbolische Verfahren zu verallgemeinern. Durch systematische Bewertungen von arithmetischen und symbolischen Aufgaben demonstrieren wir, dass die Token-Struktur die Schlussfolgerungsleistung dramatisch beeinflusst und selbst bei CoT zu Fehlern führt, während atomar ausgerichtete Formate eine starke Generalisierung ermöglichen, sodass kleinere Modelle (z. B. GPT-4o-mini) größere Systeme (z. B. o1) in strukturierter Argumentation übertreffen können. Unsere Ergebnisse zeigen, dass die Fähigkeit zu symbolischem Schlussfolgern in LLMs nicht rein architektonisch bedingt ist, sondern tiefgreifend von Token-Level-Repräsentationen abhängt.
Weltweite Bildgeolokalisierung – die Aufgabe, GPS-Koordinaten aus Bildern, die überall auf der Erde aufgenommen wurden, vorherzusagen – stellt eine grundlegende Herausforderung dar, bedingt durch die enorme Vielfalt der visuellen Inhalte in verschiedenen Regionen. Während aktuelle Ansätze eine zweistufige Pipeline verwenden, bei der Kandidaten abgerufen und die beste Übereinstimmung ausgewählt wird, verlassen sie sich typischerweise auf vereinfachte Ähnlichkeitsheuristiken und punktuelle Überwachung, wodurch sie räumliche Beziehungen zwischen den Kandidaten nicht modellieren können. In diesem Artikel stellen wir GeoRanker vor, ein distanzbewusstes Ranking-Framework, das große Vision-Language-Modelle nutzt, um Interaktionen zwischen Anfragen und Kandidaten gemeinsam zu kodieren und geografische Nähe vorherzusagen. Zusätzlich führen wir einen Multi-Order-Distanzverlust ein, der sowohl absolute als auch relative Distanzen bewertet, wodurch das Modell in die Lage versetzt wird, strukturierte räumliche Beziehungen zu erfassen. Um dies zu unterstützen, haben wir GeoRanking kuratiert, den ersten Datensatz, der explizit für geografische Ranking-Aufgaben mit multimodalen Kandidateninformationen entwickelt wurde. GeoRanker erzielt state-of-the-art Ergebnisse auf zwei etablierten Benchmarks (IM2GPS3K und YFCC4K) und übertrifft die derzeit besten Methoden deutlich.
Multi-Hop Question Answering (MHQA) fügt der Fragebeantwortung zusätzliche Komplexitätsebenen hinzu, was sie anspruchsvoller macht. Wenn Sprachmodelle (LMs) mit mehreren Suchergebnissen konfrontiert werden, müssen sie nicht nur relevante Informationen abrufen, sondern auch Multi-Hop-Schlussfolgerungen über die Informationsquellen hinweg anstellen. Obwohl LMs bei traditionellen Fragebeantwortungsaufgaben gut abschneiden, kann die kausale Maske ihre Fähigkeit beeinträchtigen, komplexe Kontexte zu durchdenken. In diesem Artikel untersuchen wir, wie LMs auf Multi-Hop-Fragen reagieren, indem wir Suchergebnisse (abgerufene Dokumente) unter verschiedenen Konfigurationen permutieren. Unsere Studie offenbart folgende interessante Erkenntnisse: 1) Encoder-Decoder-Modelle, wie die der Flan-T5-Familie, übertreffen in der Regel kausale Decoder-only-LMs bei MHQA-Aufgaben, obwohl sie deutlich kleiner sind; 2) die Veränderung der Reihenfolge von Golddokumenten zeigt unterschiedliche Trends sowohl bei Flan-T5-Modellen als auch bei feinabgestimmten Decoder-only-Modellen, wobei die beste Leistung erzielt wird, wenn die Dokumentenreihenfolge mit der Reihenfolge der Schlussfolgerungskette übereinstimmt; 3) die Verbesserung kausaler Decoder-only-Modelle durch bidirektionale Aufmerksamkeit durch Modifikation der kausalen Maske kann ihre Endleistung effektiv steigern. Zusätzlich dazu führen wir eine umfassende Untersuchung der Verteilung der Aufmerksamkeitsgewichte von LMs im Kontext von MHQA durch. Unsere Experimente zeigen, dass die Aufmerksamkeitsgewichte tendenziell höhere Werte erreichen, wenn die resultierende Antwort korrekt ist. Wir nutzen diese Erkenntnis, um die Leistung von LMs bei dieser Aufgabe heuristisch zu verbessern. Unser Code ist öffentlich verfügbar unter https://github.com/hwy9855/MultiHopQA-Reasoning.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und die Fülle von Lebensmitteldaten haben zu Studien geführt, die das Verständnis von Lebensmitteln mithilfe von LLMs verbessern sollen. Obwohl mehrere Empfehlungssysteme LLMs und Wissensgraphen (KGs) nutzen, gab es bisher nur begrenzte Forschung zur Integration von lebensmittelbezogenen KGs mit LLMs. Wir stellen KERL vor, ein einheitliches System, das Lebensmittel-KGs und LLMs nutzt, um personalisierte Lebensmittelempfehlungen zu geben und Rezepte mit zugehörigen Mikronährstoffinformationen zu generieren. Bei einer natürlichen Sprachfrage extrahiert KERL Entitäten, ruft Teilgraphen aus dem KG ab, die dann als Kontext in das LLM eingespeist werden, um die Rezepte auszuwählen, die den Anforderungen entsprechen. Anschließend generiert unser System die Kochschritte und Nährwertinformationen für jedes Rezept. Um unseren Ansatz zu bewerten, haben wir auch einen Benchmark-Datensatz entwickelt, indem wir rezeptbezogene Fragen mit Einschränkungen und persönlichen Präferenzen kombiniert haben. Durch umfangreiche Experimente zeigen wir, dass unser vorgeschlagener KG-erweiterter LLM bestehende Ansätze deutlich übertrifft und eine vollständige und kohärente Lösung für Lebensmittelempfehlungen, Rezeptgenerierung und Nährwertanalyse bietet. Unser Code und die Benchmark-Datensätze sind öffentlich unter https://github.com/mohbattharani/KERL verfügbar.
Die Dekodierung von Gehirn zu Bild wurde in jüngster Zeit durch Fortschritte bei generativen KI-Modellen und die Verfügbarkeit von groß angelegten Ultrahochfeld-funktionellen Magnetresonanztomographie (fMRI)-Daten vorangetrieben. Allerdings basieren aktuelle Ansätze auf komplexen mehrstufigen Pipelines und Vorverarbeitungsschritten, die typischerweise die zeitliche Dimension von Gehirnaufnahmen zusammenfassen und dadurch zeitaufgelöste Gehirndekodierer einschränken. Hier stellen wir Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction) vor, ein neues einstufiges Diffusionsmodell, das für die Rekonstruktion von Bildern aus sich dynamisch entwickelnden fMRI-Aufnahmen entwickelt wurde. Unser Ansatz bietet drei Hauptbeiträge. Erstens vereinfacht Dynadiff das Training im Vergleich zu bestehenden Ansätzen. Zweitens übertrifft unser Modell state-of-the-art Modelle bei zeitaufgelösten fMRI-Signalen, insbesondere bei Metriken zur Rekonstruktion von Bildern auf hoher semantischer Ebene, während es bei vorverarbeiteten fMRI-Daten, die die Zeitdimension zusammenfassen, wettbewerbsfähig bleibt. Drittens ermöglicht dieser Ansatz eine präzise Charakterisierung der Entwicklung von Bildrepräsentationen in der Gehirnaktivität. Insgesamt legt diese Arbeit die Grundlage für zeitaufgelöste Gehirn-zu-Bild-Dekodierung.
Trotz Fortschritten bei transformerbasierten Sprachmodellen (LMs) bleibt eine grundlegende Frage weitgehend unbeantwortet: Werden alle Schichten während der Inferenz aktiviert? Wir untersuchen diese Frage, indem wir nicht aktivierte Schichten (die wir als Voids bezeichnen) mithilfe einer nicht trainierbaren und parameterfreien adaptiven Berechnungsmethode namens L2 Adaptive Computation (LAC) erkennen. Wir passen LAC von seiner ursprünglichen effizienzorientierten Anwendung an, um aktivierte Schichten während der Inferenz zu verfolgen. Diese Methode überwacht Änderungen in der L2-Norm der Aktivierungen, um Voids zu identifizieren. Wir analysieren die Schichtaktivierung in instruktionsoptimierten LMs in zwei Phasen: Prompt Processing (PP), bei dem wir aktivierte Schichten für jedes Token in den Eingabeaufforderungen verfolgen, und Response Generation (RG), bei dem wir aktivierte Schichten für jedes generierte Token verfolgen. Wir zeigen weiterhin, dass unterschiedliche Schichten während dieser beiden Phasen aktiviert werden. Um die Wirksamkeit unserer Methode zu demonstrieren, haben wir drei verschiedene instruktionsoptimierte LMs aus den Familien Llama, Mistral und Qwen anhand von drei Benchmarks evaluiert: MMLU, GPQA Diamond und BoolQ. Beispielsweise führte das Überspringen von Voids in Qwen2.5-7B-Instruct bei MMLU in einer Zero-Shot-Einstellung zu einer Verbesserung von 69,24 auf 71,29, während das Modell nur 30 % der Schichten verwendet. Ebenso verbesserte sich Mistral-7B-Instruct-v0.3 bei GPQA Diamond von 13,88 auf 18,36, wenn 70 % der Schichten sowohl in der PP- als auch in der RG-Phase verwendet wurden. Diese Ergebnisse zeigen, dass nicht alle Schichten während der Inferenz gleichermaßen beitragen und dass das selektive Überspringen der meisten von ihnen die Leistung der Modelle bei bestimmten Aufgaben verbessern kann.
Ein bekanntes Problem bei Retrieval Augmented Generation (RAG) ist, dass abgerufene Passagen, die für die Anfrage irrelevant sind, manchmal das antwortgenerierende LLM ablenken und es dazu veranlassen, eine falsche Antwort zu liefern. In diesem Artikel beleuchten wir dieses Kernproblem und formulieren den ablenkenden Effekt einer Passage in Bezug auf eine Anfrage (und ein LLM). Wir bieten ein quantifizierbares Maß für den ablenkenden Effekt einer Passage und demonstrieren dessen Robustheit über verschiedene LLMs hinweg. Unsere Forschung führt neuartige Methoden zur Identifizierung und Nutzung von stark ablenkenden Passagen ein, um RAG-Systeme zu verbessern. Durch das Feinabstimmen von LLMs mit diesen sorgfältig ausgewählten ablenkenden Passagen erreichen wir eine Steigerung der Antwortgenauigkeit von bis zu 7,5 % im Vergleich zu Modellen, die auf herkömmlichen RAG-Datensätzen feinabgestimmt wurden. Unser Beitrag ist zweifach: Erstens gehen wir über die einfache binäre Klassifizierung irrelevanter Passagen als entweder völlig unzusammenhängend oder ablenkend hinaus, und zweitens entwickeln und analysieren wir mehrere Methoden zur Identifizierung von stark ablenkenden Passagen. Nach unserem Wissen hat keine andere Forschung ein derart umfassendes Framework zur Identifizierung und Nutzung von stark ablenkenden Passagen bereitgestellt.
Wir präsentieren ein konzeptionelles Framework für das Training von Vision-Language-Modellen (VLMs), um Visual Perspective Taking (VPT) durchzuführen, eine Kernfähigkeit für verkörperte Kognition, die für die Mensch-Roboter-Interaktion (HRI) essenziell ist. Als ersten Schritt zu diesem Ziel führen wir einen synthetischen Datensatz ein, der in NVIDIA Omniverse generiert wurde und überwachtes Lernen für räumliche Denkaufgaben ermöglicht. Jede Instanz umfasst ein RGB-Bild, eine natürliche Sprachbeschreibung und eine Ground-Truth-4x4-Transformationsmatrix, die die Objektpose darstellt. Wir konzentrieren uns auf die Inferenz der Z-Achsen-Distanz als grundlegende Fähigkeit, mit zukünftigen Erweiterungen, die auf vollständige 6 Degrees of Freedom (DOFs)-Schlussfolgerungen abzielen. Der Datensatz ist öffentlich verfügbar, um weitere Forschungen zu unterstützen. Diese Arbeit dient als grundlegender Schritt hin zu verkörperten KI-Systemen, die räumliches Verständnis in interaktiven Mensch-Roboter-Szenarien ermöglichen.
Visuelle Darstellungen sind zentral für die Lern- und Generalisierungsfähigkeiten von Robotermanipulationsstrategien. Während bestehende Methoden auf globale oder dichte Merkmale setzen, vermischen solche Darstellungen oft aufgabenrelevante und irrelevante Szeneninformationen, was die Robustheit bei Verteilungsverschiebungen einschränkt. In dieser Arbeit untersuchen wir objektzentrierte Darstellungen (OCR) als strukturierte Alternative, die visuelle Eingaben in eine abgeschlossene Menge von Entitäten segmentiert und induktive Verzerrungen einführt, die sich natürlicher mit Manipulationsaufgaben decken. Wir vergleichen eine Reihe von visuellen Encodern – objektzentrierte, globale und dichte Methoden – über eine Reihe von simulierten und realen Manipulationsaufgaben, die von einfach bis komplex reichen, und bewerten ihre Generalisierung unter verschiedenen visuellen Bedingungen, einschließlich Änderungen in Beleuchtung, Textur und der Anwesenheit von Ablenkern. Unsere Ergebnisse zeigen, dass OCR-basierte Strategien in Generalisierungsszenarien dichte und globale Darstellungen übertreffen, selbst ohne aufgabenspezifisches Vorabtraining. Diese Erkenntnisse deuten darauf hin, dass OCR eine vielversprechende Richtung für die Gestaltung visueller Systeme ist, die effektiv in dynamischen, realen Robotikumgebungen generalisieren.