Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-SQL zielt darauf ab, natürlichsprachige Anfragen in SQL-Anweisungen zu übersetzen, was praktisch ist, da es jedem ermöglicht, gewünschte Informationen einfach aus Datenbanken abzurufen. In jüngster Zeit behandeln viele bestehende Ansätze dieses Problem mit Large Language Models (LLMs), indem sie deren starke Fähigkeit nutzen, Benutzeranfragen zu verstehen und entsprechende SQL-Codes zu generieren. Dennoch könnte das parametrische Wissen in LLMs begrenzt sein, um alle vielfältigen und domänenspezifischen Anfragen abzudecken, die eine Verankerung in verschiedenen Datenbankschemata erfordern, was generierte SQL-Anweisungen oft weniger genau macht. Um dies zu bewältigen, schlagen wir vor, eine Wissensbasis für Text-to-SQL zu erstellen, eine grundlegende Wissensquelle, aus der wir das notwendige Wissen für gegebene Anfragen abrufen und generieren. Insbesondere ist unsere Wissensbasis, im Gegensatz zu bestehenden Ansätzen, die entweder manuell Wissen annotieren oder nur wenige Wissenselemente pro Anfrage generieren, umfassend. Sie basiert auf einer Kombination aller verfügbaren Fragen und ihrer zugehörigen Datenbankschemata sowie ihrem relevanten Wissen und kann für unbekannte Datenbanken aus verschiedenen Datensätzen und Domänen wiederverwendet werden. Wir validieren unseren Ansatz auf mehreren Text-to-SQL-Datensätzen, wobei sowohl überlappende als auch nicht überlappende Datenbankszenarien berücksichtigt werden, und zeigen, dass er relevante Baselines erheblich übertrifft.
Instruction Following (IF) ist eine entscheidende Fähigkeit für große Sprachmodelle (LLMs). Die Verarbeitung komplexer Anweisungen mit mehreren Einschränkungen bleibt jedoch eine Herausforderung. Bisherige Methoden wählen Präferenzpaare typischerweise basierend auf der Anzahl der erfüllten Einschränkungen aus, was Rauschen einführt, da ausgewählte Beispiele einige Einschränkungen möglicherweise nicht erfüllen und abgelehnte Beispiele in bestimmten Aspekten besser abschneiden können als die ausgewählten. Um die Herausforderung der Ausrichtung auf mehrere Präferenzen zu bewältigen, schlagen wir eine einfache, aber effektive Methode namens Reverse Preference Optimization (RPO) vor. Diese Methode reduziert Rauschen in Präferenzpaaren, indem sie die Einschränkungen innerhalb der Anweisung dynamisch umkehrt, um sicherzustellen, dass die ausgewählte Antwort perfekt ist. Dadurch wird die Notwendigkeit umfangreicher Stichproben und Filterungen zur Sammlung perfekter Antworten verringert. Darüber hinaus vergrößert die Umkehrung die Kluft zwischen ausgewählten und abgelehnten Antworten, wodurch die Optimierungsrichtung klarer wird und sie robuster gegenüber Rauschen ist. Wir evaluieren RPO anhand von zwei Multi-Turn-IF-Benchmarks, Sysbench und Multi-IF, und zeigen durchschnittliche Verbesserungen gegenüber der DPO-Baseline von 4,6 und 2,5 Punkten (auf Llama-3.1 8B) auf. Zudem skaliert RPO effektiv über verschiedene Modellgrößen (8B bis 70B Parameter), wobei das 70B-RPO-Modell GPT-4o übertrifft.
Dieses Papier zielt darauf ab, ein großes Hindernis bei der Skalierung von Reinforcement Learning (RL) für das Schließen mit großen Sprachmodellen (LLMs) zu überwinden, nämlich den Kollaps der Policy-Entropie. Dieses Phänomen wird konsequent in umfangreichen RL-Läufen ohne Entropie-Intervention beobachtet, bei denen die Policy-Entropie in der frühen Trainingsphase stark abfällt. Diese verringerte Explorationsfähigkeit geht stets mit einer Sättigung der Policy-Leistung einher. In der Praxis stellen wir eine Transformationsgleichung R=-a*e^H+b zwischen der Entropie H und der nachgelagerten Leistung R auf. Dieses empirische Gesetz deutet stark darauf hin, dass die Policy-Leistung auf Kosten der Policy-Entropie erzielt wird und somit durch deren Erschöpfung begrenzt ist, wobei die Obergrenze vollständig vorhersehbar ist: H=0, R=-a+b. Unsere Erkenntnis macht ein Entropie-Management für kontinuierliche Exploration im Hinblick auf die Skalierung von Rechenleistung für RL notwendig. Zu diesem Zweck untersuchen wir die Entropie-Dynamik sowohl theoretisch als auch empirisch. Unsere Ableitung zeigt, dass die Veränderung der Policy-Entropie durch die Kovarianz zwischen der Aktionswahrscheinlichkeit und der Veränderung der Logits angetrieben wird, die proportional zu ihrem Vorteil bei der Verwendung von Policy-Gradient-ähnlichen Algorithmen ist. Die empirische Studie zeigt, dass die Werte des Kovarianzterms und der Entropieunterschiede exakt übereinstimmen, was die theoretische Schlussfolgerung unterstützt. Darüber hinaus bleibt der Kovarianzterm während des gesamten Trainings überwiegend positiv, was weiter erklärt, warum die Policy-Entropie monoton abnehmen würde. Durch das Verständnis des Mechanismus hinter der Entropie-Dynamik motivieren wir die Kontrolle der Entropie durch die Einschränkung der Aktualisierung von Tokens mit hoher Kovarianz. Insbesondere schlagen wir zwei einfache, aber effektive Techniken vor, nämlich Clip-Cov und KL-Cov, die Tokens mit hohen Kovarianzen jeweils abschneiden und eine KL-Strafe anwenden. Experimente zeigen, dass diese Methoden die Exploration fördern und somit dazu beitragen, dass die Policy dem Entropie-Kollaps entkommt und eine bessere nachgelagerte Leistung erzielt.
LLM-basierte Agenten haben vielversprechende Fähigkeiten in einer wachsenden Anzahl von Softwareentwicklungsaufgaben (SWE) gezeigt. Die Weiterentwicklung dieses Bereichs steht jedoch vor zwei kritischen Herausforderungen. Erstens sind hochwertige Trainingsdaten knapp, insbesondere Daten, die reale SWE-Szenarien widerspiegeln, in denen Agenten mit Entwicklungsumgebungen interagieren, Code ausführen und ihr Verhalten basierend auf den Ergebnissen ihrer Aktionen anpassen müssen. Bestehende Datensätze beschränken sich entweder auf einmalige Codegenerierung oder bestehen aus kleinen, manuell kuratierten Sammlungen interaktiver Aufgaben, denen sowohl Umfang als auch Vielfalt fehlen. Zweitens beeinträchtigt der Mangel an neuen interaktiven SWE-Aufgaben die Bewertung sich schnell verbessernder Modelle, da statische Benchmarks aufgrund von Kontaminationsproblemen schnell veraltet sind. Um diese Einschränkungen zu überwinden, stellen wir eine neuartige, automatisierte und skalierbare Pipeline vor, die kontinuierlich reale interaktive SWE-Aufgaben aus diversen GitHub-Repositories extrahiert. Mit dieser Pipeline erstellen wir SWE-rebench, einen öffentlichen Datensatz, der über 21.000 interaktive Python-basierte SWE-Aufgaben umfasst und sich für das Reinforcement Learning von SWE-Agenten im großen Maßstab eignet. Zusätzlich nutzen wir die kontinuierliche Bereitstellung neuer Aufgaben, die mit der SWE-rebench-Methodik gesammelt werden, um einen kontaminationsfreien Benchmark für agentenbasierte Softwareentwicklung zu erstellen. Wir vergleichen die Ergebnisse verschiedener LLMs auf diesem Benchmark mit den Ergebnissen auf SWE-bench Verified und zeigen, dass die Leistung einiger Sprachmodelle aufgrund von Kontaminationsproblemen möglicherweise überschätzt wird.
Große Sprachmodelle (LLMs) erreichen beeindruckende Fähigkeiten im logischen Denken, jedoch auf Kosten eines erheblichen Inferenzaufwands, was erhebliche Herausforderungen bei der Bereitstellung mit sich bringt. Obwohl destillierte Kleine Sprachmodelle (SLMs) die Effizienz deutlich steigern, leidet ihre Leistung, da sie die Denkpfade der LLMs nicht nachvollziehen können. Glücklicherweise zeigen wir, dass nur ein kleiner Bruchteil der Token tatsächlich die Denkpfade zwischen LLMs und SLMs divergieren lässt. Die meisten generierten Token sind entweder identisch oder weisen neutrale Unterschiede auf, wie geringfügige Abweichungen in Abkürzungen oder Ausdrücken. Basierend auf dieser Erkenntnis führen wir **Roads to Rome (R2R)** ein, eine neuronale Token-Routing-Methode, die LLMs selektiv nur für diese kritischen, pfaddivergenten Token nutzt, während die Mehrheit der Token-Generierung dem SLM überlassen bleibt. Wir entwickeln außerdem eine automatische Daten-Generierungspipeline, die divergente Token identifiziert und Token-Level-Routing-Labels erzeugt, um den leichtgewichtigen Router zu trainieren. Wir wenden R2R an, um die R1-1.5B- und R1-32B-Modelle aus der DeepSeek-Familie zu kombinieren, und evaluieren sie anspruchsvollen Benchmarks in den Bereichen Mathematik, Programmierung und Frage-Antwort. Mit einer durchschnittlich aktivierten Parametergröße von 5,6B übertrifft R2R die durchschnittliche Genauigkeit von R1-7B um das 1,6-fache und übertrifft sogar das R1-14B-Modell. Im Vergleich zu R1-32B erreicht es eine 2,8-fache Beschleunigung der Echtzeit bei vergleichbarer Leistung und verbessert die Pareto-Front der Skalierungseffizienz zur Testzeit. Unser Code ist verfügbar unter https://github.com/thu-nics/R2R.
Der Erfolg von DeepSeek-R1 unterstreicht die bedeutende Rolle von Reinforcement Learning (RL) bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs). In dieser Arbeit präsentieren wir Skywork-OR1, eine effektive und skalierbare RL-Implementierung für lange Chain-of-Thought (CoT)-Modelle. Aufbauend auf der DeepSeek-R1-Distill-Modellreihe erzielt unser RL-Ansatz bemerkenswerte Leistungssteigerungen, indem die durchschnittliche Genauigkeit über AIME24, AIME25 und LiveCodeBench von 57,8 % auf 72,8 % (+15,0 %) für das 32B-Modell und von 43,6 % auf 57,5 % (+13,9 %) für das 7B-Modell erhöht wird. Unser Skywork-OR1-32B-Modell übertrifft sowohl DeepSeek-R1 als auch Qwen3-32B auf den AIME24- und AIME25-Benchmarks, während es auf LiveCodeBench vergleichbare Ergebnisse erzielt. Die Modelle Skywork-OR1-7B und Skywork-OR1-Math-7B demonstrieren wettbewerbsfähige Denkfähigkeiten unter Modellen ähnlicher Größe. Wir führen umfassende Ablationsstudien zu den Kernkomponenten unseres Trainingspipelines durch, um deren Wirksamkeit zu validieren. Zudem untersuchen wir gründlich das Phänomen des Entropiezusammenbruchs, identifizieren Schlüsselfaktoren, die die Entropiedynamik beeinflussen, und zeigen, dass die Minderung eines vorzeitigen Entropiezusammenbruchs entscheidend für eine verbesserte Testleistung ist. Um die Forschung in der Community zu unterstützen, stellen wir unsere Modellgewichte, Trainingscode und Trainingsdatensätze vollständig als Open Source zur Verfügung.
Reasoning Vision-Language Models (VLMs) haben vielversprechende Leistungen bei komplexen multimodalen Aufgaben gezeigt. Dennoch stehen sie weiterhin vor erheblichen Herausforderungen: Sie sind sehr anfällig für Fehler im logischen Schlussfolgern, benötigen große Mengen annotierter Daten oder präzise Verifizierer und haben Schwierigkeiten, über spezifische Domänen hinaus zu generalisieren. Um diese Einschränkungen zu überwinden, untersuchen wir Selbstkorrektur als Strategie zur Verbesserung von Reasoning VLMs. Zunächst führen wir eine detaillierte Analyse der Selbstkorrekturfähigkeiten von Reasoning VLMs durch und identifizieren wesentliche Lücken. Basierend auf unseren Erkenntnissen stellen wir Sherlock vor, ein Trainingsframework für Selbstkorrektur und Selbstverbesserung. Sherlock führt ein trajektorienbasiertes Selbstkorrekturziel, eine Methode zur Konstruktion von Präferenzdaten basierend auf visuellen Störungen und ein dynamisches Beta für die Präferenzabstimmung ein. Sobald das Modell Selbstkorrekturfähigkeiten mit nur 20k zufällig ausgewählten annotierten Daten erwirbt, verbessert es sich kontinuierlich ohne externe Überwachung weiter. Aufbauend auf dem Llama3.2-Vision-11B-Modell erzielt Sherlock bemerkenswerte Ergebnisse in acht Benchmarks und erreicht eine durchschnittliche Genauigkeit von 64,1 bei direkter Generierung und 65,4 nach Selbstkorrektur. Es übertrifft LLaVA-CoT (63,2), Mulberry (63,9) und LlamaV-o1 (63,4) und verwendet dabei weniger als 20 % der annotierten Daten.
Die Verbesserung von Multi-modalen Großen Sprachmodellen (MLLMs) in der Post-Training-Phase stützt sich typischerweise auf überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) oder Verstärkungslernen (Reinforcement Learning, RL). Diese überwachten Methoden erfordern jedoch teure und manuell annotierte multi-modale Daten – eine letztlich nicht nachhaltige Ressource. Während neuere Bemühungen unüberwachtes Post-Training erforscht haben, sind deren Methoden komplex und schwer zu iterieren. In dieser Arbeit untersuchen wir erstmals die Verwendung von GRPO, einem stabilen und skalierbaren Online-RL-Algorithmus, um kontinuierliche Selbstverbesserung ohne externe Überwachung zu ermöglichen. Wir schlagen MM-UPT vor, ein einfaches, aber effektives Framework für unüberwachtes Post-Training von MLLMs. MM-UPT baut auf GRPO auf und ersetzt traditionelle Belohnungssignale durch einen Selbstbelohnungsmechanismus, der auf Mehrheitsentscheidungen über mehrere gesampelte Antworten basiert. Unsere Experimente zeigen, dass MM-UPT die Fähigkeit zur logischen Schlussfolgerung von Qwen2.5-VL-7B signifikant verbessert (z.B. 66,3 % → 72,9 % auf MathVista, 62,9 % → 68,7 % auf We-Math), wobei Standarddatensätze ohne Ground-Truth-Labels verwendet werden. MM-UPT übertrifft auch frühere unüberwachte Baselines und nähert sich sogar den Ergebnissen von überwachtem GRPO an. Darüber hinaus zeigen wir, dass die Einbindung synthetischer Fragen, die ausschließlich vom MLLM selbst generiert werden, die Leistung ebenfalls steigern kann, was einen vielversprechenden Ansatz für skalierbare Selbstverbesserung aufzeigt. Insgesamt bietet MM-UPT ein neues Paradigma für die kontinuierliche, autonome Verbesserung von MLLMs in Abwesenheit externer Überwachung. Unser Code ist verfügbar unter https://github.com/waltonfuture/MM-UPT.
Moderne Single-Image-Super-Resolution (SISR)-Modelle liefern fotorealistische Ergebnisse bei den Skalierungsfaktoren, auf die sie trainiert wurden, versagen jedoch, wenn sie aufgefordert werden, weit über diesen Bereich hinaus zu vergrößern. Wir adressieren diesen Skalierbarkeitsengpass mit Chain-of-Zoom (CoZ), einem modellagnostischen Framework, das SISR in eine autoregressive Kette von Zwischenskalierungszuständen mit mehrskaligen Prompts faktorisiert. CoZ verwendet ein Backbone-SR-Modell wiederholt, indem es die bedingte Wahrscheinlichkeit in handhabbare Teilprobleme zerlegt, um extreme Auflösungen ohne zusätzliches Training zu erreichen. Da visuelle Hinweise bei hohen Vergrößerungen abnehmen, ergänzen wir jeden Zoom-Schritt mit mehrskaligen Textprompts, die von einem Vision-Language-Modell (VLM) generiert werden. Der Prompt-Extraktor selbst wird mit Generalized Reward Policy Optimization (GRPO) und einem kritischen VLM feinabgestimmt, um die Textanleitung an menschliche Präferenzen anzupassen. Experimente zeigen, dass ein standardmäßiges 4x-Diffusions-SR-Modell, das in CoZ eingebettet ist, eine Vergrößerung über 256x mit hoher wahrgenommener Qualität und Treue erreicht. Projektseite: https://bryanswkim.github.io/chain-of-zoom/.
Die Effizienz von Attention ist entscheidend, da ihre Zeitkomplexität quadratisch mit der Sequenzlänge wächst. SageAttention2 adressiert dies durch die Nutzung von Quantisierung, um Matrixmultiplikationen (Matmul) in Attention zu beschleunigen. Um SageAttention2 weiter zu beschleunigen, schlagen wir vor, die schnellere FP8-Matmul-Instruktion zu verwenden, die in FP16 akkumuliert wird. Diese Instruktion ist 2x schneller als die in SageAttention2 verwendete FP8-Matmul. Unsere Experimente zeigen, dass SageAttention2++ eine 3,9-fache Beschleunigung gegenüber FlashAttention erreicht, während die gleiche Attention-Genauigkeit wie bei SageAttention2 beibehalten wird. Dies bedeutet, dass SageAttention2++ effektiv verschiedene Modelle, einschließlich solcher für Sprach-, Bild- und Videogenerierung, beschleunigt, mit vernachlässigbarem Verlust bei den End-to-End-Metriken. Der Code wird unter https://github.com/thu-ml/SageAttention verfügbar sein.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fähigkeiten zur Kettenfolge-Argumentation (Chain-of-Thought Reasoning) gezeigt, wobei das Reinforcement Learning (RL) eine entscheidende Rolle in diesem Fortschritt spielt. Während „Aha-Moment“-Muster – bei denen Modelle durch Reflexion Selbstkorrekturen zeigen – oft auf emergente Eigenschaften des RL zurückgeführt werden, zeigen wir zunächst, dass diese Muster in multimodalen LLMs (MLLMs) bereits vor dem RL-Training existieren, jedoch nicht zwangsläufig mit einer verbesserten Argumentationsleistung korrelieren. Aufbauend auf diesen Erkenntnissen präsentieren wir eine umfassende Studie zur Verbesserung der multimodalen Argumentation durch einen zweistufigen Ansatz: (1) überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) als Kaltstart mit strukturierten Kettenfolge-Argumentationsmustern, gefolgt von (2) Reinforcement Learning via GRPO zur weiteren Verfeinerung dieser Fähigkeiten. Unsere umfangreichen Experimente zeigen, dass dieser kombinierte Ansatz sowohl SFT-only- als auch RL-only-Methoden in anspruchsvollen multimodalen Argumentations-Benchmarks konsequent übertrifft. Die resultierenden Modelle erzielen state-of-the-art-Leistungen unter Open-Source-MLLMs sowohl im 3B- als auch im 7B-Maßstab, wobei unser 7B-Modell erhebliche Verbesserungen gegenüber den Basismodellen zeigt (z. B. 66,3 % → 73,4 % bei MathVista, 62,9 % → 70,4 % bei We-Math) und unser 3B-Modell eine Leistung erreicht, die mit mehreren 7B-Modellen konkurrieren kann. Insgesamt bietet diese Arbeit praktische Leitlinien für den Aufbau fortschrittlicher multimodaler Argumentationsmodelle. Unser Code ist verfügbar unter https://github.com/waltonfuture/RL-with-Cold-Start.
Wir präsentieren RenderFormer, eine neuronale Rendering-Pipeline, die direkt ein Bild aus einer dreiecksbasierten Darstellung einer Szene mit vollständigen globalen Beleuchtungseffekten rendert und keine szenenspezifische Trainings- oder Feinabstimmung erfordert. Anstatt einen physikzentrierten Ansatz für das Rendering zu verfolgen, formulieren wir das Rendering als eine Sequenz-zu-Sequenz-Transformation, bei der eine Sequenz von Tokens, die Dreiecke mit Reflexionseigenschaften repräsentieren, in eine Sequenz von Ausgabe-Tokens umgewandelt wird, die kleine Pixelbereiche darstellen. RenderFormer folgt einer zweistufigen Pipeline: einer sichtunabhängigen Stufe, die den Lichttransport zwischen Dreiecken modelliert, und einer sichtabhängigen Stufe, die einen Token, der ein Bündel von Strahlen repräsentiert, in die entsprechenden Pixelwerte transformiert, geleitet durch die Dreieckssequenz aus der sichtunabhängigen Stufe. Beide Stufen basieren auf der Transformer-Architektur und werden mit minimalen Vorannahmen gelernt. Wir demonstrieren und evaluieren RenderFormer an Szenen mit unterschiedlicher Komplexität in Form und Lichttransport.
Die Vorhersage des nächsten Tokens dient als grundlegende Lernaufgabe, die das Schließen in großen Sprachmodellen (LLMs) ermöglicht. Doch welche Lernaufgabe sollte es sein, wenn man Multimodale Sprachmodelle (MLLMs) mit Fähigkeiten zur zeitlichen Schlussfolgerung über Videoeingaben ausstatten möchte? Bestehende Aufgaben wie die Beantwortung von Videofragen stützen sich oft auf Annotationen von Menschen oder deutlich leistungsstärkeren MLLMs, während die Videobeschreibung dazu neigt, zeitliche Schlussfolgerungen mit räumlichen Informationen zu vermischen. Um diese Lücke zu schließen, schlagen wir die Vorhersage des nächsten Ereignisses (Next-Event Prediction, NEP) vor, eine Lernaufgabe, die zukünftige Videosegmente als reichhaltiges, selbstüberwachtes Signal nutzt, um zeitliches Schließen zu fördern. Wir unterteilen jedes Video in vergangene und zukünftige Frames: Das MLLM nimmt die vergangenen Frames als Eingabe und sagt eine Zusammenfassung der Ereignisse voraus, die aus den zukünftigen Frames abgeleitet werden, wodurch das Modell dazu angeregt wird, zeitlich zu schließen, um die Aufgabe zu erfüllen. Um diese Aufgabe zu unterstützen, haben wir V1-33K kuratiert, einen Datensatz, der 33.000 automatisch extrahierte Videosegmente umfasst, die vielfältige reale Szenarien abdecken. Wir untersuchen weiterhin eine Reihe von Video-Instruktions-Tuning-Strategien, um deren Auswirkungen auf das zeitliche Schließen zu untersuchen. Um den Fortschritt zu bewerten, führen wir FutureBench ein, um die Kohärenz bei der Vorhersage unbekannter zukünftiger Ereignisse zu bewerten. Experimente bestätigen, dass NEP ein skalierbares und effektives Trainingsparadigma bietet, um zeitliches Schließen in MLLMs zu fördern.
Tiefe Forschungssysteme repräsentieren eine aufstrebende Klasse von agentenbasierten Informationsabrufmethoden, die umfassende und gut fundierte Berichte zu komplexen Anfragen generieren. Die meisten bestehenden Frameworks verlassen sich jedoch auf dynamische kommerzielle Such-APIs, die neben ihren Kosten auch Herausforderungen in Bezug auf Reproduzierbarkeit und Transparenz mit sich bringen. Um diese Einschränkungen zu überwinden, stellen wir DeepResearchGym vor, eine Open-Source-Sandbox, die eine reproduzierbare Such-API mit einem rigorosen Evaluierungsprotokoll zur Bewertung tiefer Forschungssysteme kombiniert. Die API indiziert groß angelegte öffentliche Webkorpora, nämlich ClueWeb22 und FineWeb, unter Verwendung eines modernen dichten Retrievers und einer approximativen nächsten Nachbarsuche via DiskANN. Sie erreicht eine geringere Latenz als populäre kommerzielle APIs und gewährleistet stabile Dokumentenrankings über mehrere Durchläufe hinweg, wobei sie frei für Forschungszwecke verfügbar ist. Um die Ausgaben tiefer Forschungssysteme zu bewerten, erweitern wir das Researchy Questions-Benchmark mit automatischen Metriken durch LLM-as-a-Judge-Bewertungen, um die Übereinstimmung mit den Informationsbedürfnissen der Nutzer, die Treue des Abrufs und die Qualität der Berichte zu messen. Experimentelle Ergebnisse zeigen, dass Systeme, die in DeepResearchGym integriert sind, eine vergleichbare Leistung zu denen mit kommerziellen APIs erreichen, wobei die Leistungsrankings über die Evaluierungsmetriken hinweg konsistent bleiben. Eine menschliche Evaluierungsstudie bestätigt weiterhin, dass unser automatisches Protokoll mit menschlichen Präferenzen übereinstimmt, und validiert damit die Fähigkeit des Frameworks, eine kontrollierte Bewertung tiefer Forschungssysteme zu unterstützen. Unser Code und die API-Dokumentation sind unter https://www.deepresearchgym.ai verfügbar.
Unternehmenssuchsysteme haben oft Schwierigkeiten, präzise, domänenspezifische Informationen abzurufen, was auf semantische Fehlanpassungen und überlappende Terminologien zurückzuführen ist. Diese Probleme können die Leistung nachgelagerter Anwendungen wie Wissensmanagement, Kundensupport und Retrieval-Augmented-Generation-Agenten beeinträchtigen. Um diese Herausforderung zu bewältigen, schlagen wir ein skalierbares Framework für das Mining von Hard Negatives vor, das speziell für domänenspezifische Unternehmensdaten entwickelt wurde. Unser Ansatz wählt dynamisch semantisch anspruchsvolle, aber kontextuell irrelevante Dokumente aus, um eingesetzte Re-Ranking-Modelle zu verbessern. Unsere Methode integriert verschiedene Embedding-Modelle, führt Dimensionsreduktion durch und wählt Hard Negatives auf einzigartige Weise aus, wodurch Recheneffizienz und semantische Präzision sichergestellt werden. Die Auswertung auf unserem proprietären Unternehmenskorpus (Cloud-Services-Domäne) zeigt erhebliche Verbesserungen von 15 % in MRR@3 und 19 % in MRR@10 im Vergleich zu state-of-the-art Baselines und anderen Negative-Sampling-Techniken. Eine weitere Validierung auf öffentlichen domänenspezifischen Datensätzen (FiQA, Climate Fever, TechQA) bestätigt die Generalisierbarkeit und Einsatzbereitschaft unserer Methode für reale Anwendungen.
In dieser Arbeit stellen wir Few Shot Domain Adapting Graph (FS-DAG) vor, eine skalierbare und effiziente Modellarchitektur für das Verständnis visuell reicher Dokumente (VRDU) in Few-Shot-Szenarien. FS-DAG nutzt domänenspezifische sowie sprach- und bildspezifische Backbones innerhalb eines modularen Frameworks, um sich mit minimalen Daten an verschiedene Dokumenttypen anzupassen. Das Modell ist robust gegenüber praktischen Herausforderungen wie der Handhabung von OCR-Fehlern, Rechtschreibfehlern und Domänenverschiebungen, die in realen Anwendungen von entscheidender Bedeutung sind. FS-DAG ist mit weniger als 90M Parametern äußerst leistungsfähig und eignet sich daher besonders für komplexe reale Anwendungen im Bereich der Informationsextraktion (IE), bei denen die Rechenressourcen begrenzt sind. Wir demonstrieren die Fähigkeiten von FS-DAG durch umfangreiche Experimente zur Informationsextraktion und zeigen signifikante Verbesserungen in der Konvergenzgeschwindigkeit und Leistung im Vergleich zu state-of-the-art Methoden. Darüber hinaus unterstreicht diese Arbeit die fortlaufenden Fortschritte bei der Entwicklung kleinerer, effizienterer Modelle, die keine Kompromisse bei der Leistung eingehen. Code: https://github.com/oracle-samples/fs-dag
Große Sprachmodelle (LLMs) haben bemerkenswerte allgemeine Fähigkeiten gezeigt, doch die Verbesserung von Fähigkeiten wie dem logischen Denken erfordert oft erhebliche Rechenressourcen und kann ihre Generalisierungsfähigkeit beeinträchtigen. Während Parameter-Efficient Fine-Tuning (PEFT)-Methoden eine ressourcenschonendere Alternative bieten, erfordern sie typischerweise eine erneute Anpassung für jedes LLM-Grundgerüst aufgrund von Architekturabhängigkeiten. Um diese Herausforderungen zu bewältigen, schlagen wir hier den Universal Reasoner (UniR) vor – ein einzelnes, leichtgewichtiges, komponierbares und Plug-and-Play-fähiges Modul für logisches Denken, das mit jedem eingefrorenen LLM verwendet werden kann, um es mit spezialisierten Denkfähigkeiten auszustatten. Konkret zerlegt UniR die Belohnung in ein eigenständiges Denkmodul, das unabhängig mit vordefinierten Belohnungen trainiert wird und so Trajektorien-Signale effektiv in Token-Level-Anleitungen übersetzt. Einmal trainiert, kann UniR mit jedem eingefrorenen LLM zur Inferenzzeit kombiniert werden, indem einfach seine Ausgabe-Logits zu denen des LLM-Grundgerüsts addiert werden. Diese additive Struktur ermöglicht auf natürliche Weise eine modulare Komposition: Mehrere UniR-Module, die für verschiedene Aufgaben trainiert wurden, können gemeinsam angewendet werden, indem ihre Logits summiert werden, was komplexes Denken durch Komposition ermöglicht. Experimentelle Ergebnisse zu mathematischem Denken und maschineller Übersetzung zeigen, dass UniR bestehende Baseline-Fine-Tuning-Methoden mit dem Llama3.2-Modell deutlich übertrifft. Darüber hinaus zeigt UniR eine starke schwache-zu-starke Generalisierung: Denkmodule, die auf kleineren Modellen trainiert wurden, leiten viel größere LLMs effektiv an. Dies macht UniR zu einer kosteneffizienten, anpassungsfähigen und robusten Lösung zur Verbesserung des logischen Denkens in LLMs, ohne deren Kernfähigkeiten zu beeinträchtigen. Der Code ist unter https://github.com/hangeol/UniR open-source verfügbar.
Die Bewältigung komplexer realer Probleme erfordert eine tiefgehende Informationssuche und mehrstufiges Denken. Jüngste Fortschritte in agentenbasierten Systemen, wie beispielsweise Deep Research, unterstreichen das Potenzial für autonome, mehrstufige Forschung. In dieser Arbeit präsentieren wir ein kohärentes Paradigma für den Aufbau von end-to-end agentenbasierten Informationssuchsystemen aus einer datenzentrierten und Trainingsphasen-Perspektive. Unser Ansatz besteht aus vier Schlüsselphasen: (1) Konstruktion von Browsing-Daten, (2) Stichprobenziehung von Trajektorien, (3) überwachtes Fein-Tuning für einen effektiven Kaltstart und (4) Verstärkungslernen zur verbesserten Generalisierung. Wir implementieren dieses Framework in einem Web-Agenten basierend auf ReAct, WebDancer. Empirische Auswertungen auf den anspruchsvollen Informationssuch-Benchmarks GAIA und WebWalkerQA demonstrieren die starke Leistung von WebDancer, die beachtliche Ergebnisse erzielt und die Wirksamkeit unseres Trainingsparadigmas hervorhebt. Eine weitere Analyse des Agententrainings liefert wertvolle Einblicke und systematische, umsetzbare Wege für die Entwicklung leistungsfähigerer agentenbasierter Modelle. Die Codes und die Demo werden unter https://github.com/Alibaba-NLP/WebAgent veröffentlicht.
Hochwertige mehrsprachige Trainingsdaten sind entscheidend für die effektive Vorabtrainierung großer Sprachmodelle (LLMs). Dennoch bleibt die Verfügbarkeit geeigneter Open-Source-Mehrsprachdatensätze begrenzt. Bestehende State-of-the-Art-Datensätze stützen sich größtenteils auf heuristische Filtermethoden, was sowohl ihre sprachübergreifende Übertragbarkeit als auch ihre Skalierbarkeit einschränkt. Hier stellen wir JQL vor, einen systematischen Ansatz, der effizient vielfältige und hochwertige mehrsprachige Daten in großem Maßstab kuratiert und gleichzeitig den Rechenaufwand erheblich reduziert. JQL destilliert die Annotationsfähigkeiten von LLMs in leichtgewichtige Annotatoren, die auf vortrainierten mehrsprachigen Einbettungen basieren. Diese Modelle zeigen robuste mehrsprachige und sprachübergreifende Leistung, sogar für Sprachen und Schriftsysteme, die während des Trainings nicht gesehen wurden. Empirisch über 35 Sprachen evaluiert, übertrifft der resultierende Annotationspipeline aktuelle heuristische Filtermethoden wie Fineweb2 deutlich. JQL verbessert insbesondere die Qualität des nachgelagerten Modelltrainings und erhöht die Datenretentionsraten. Unsere Forschung bietet praktische Einblicke und wertvolle Ressourcen für die mehrsprachige Datenkuratierung und hebt die Standards der mehrsprachigen Datensatzentwicklung an.
Autoregressive Sprachmodelle (LMs) generieren jeweils ein Token nach dem anderen, während menschliches Denken auf höheren Abstraktionsebenen operiert – Sätze, Propositionen und Konzepte. Dieser Kontrast wirft eine zentrale Frage auf: Können LMs ebenfalls lernen, über strukturierte semantische Einheiten statt über rohe Token-Sequenzen zu schlussfolgern? In dieser Arbeit untersuchen wir, ob vortrainierte LMs durch die Nutzung ihrer gelernten Repräsentationen in solche abstrakten Denkräume gehoben werden können. Wir präsentieren ein Framework, das ein vortrainiertes Token-Level-LM anpasst, um im Satzraum zu operieren, indem es kontinuierliche Embeddings der nächsten Sätze autoregressiv vorhersagt. Wir untersuchen zwei Embedding-Paradigmen, die von klassischer Repräsentationslernforschung inspiriert sind: 1) semantische Embeddings, die durch Autoencoding gelernt werden, um die Oberflächenbedeutung zu bewahren; und 2) kontextuelle Embeddings, die durch Next-Sentence-Prediction trainiert werden, um antizipatorische Strukturen zu kodieren. Wir evaluieren beide unter zwei Inferenzregimen: Diskrete Inferenz, bei der jedes vorhergesagte Embedding in Text dekodiert wird, bevor es erneut kodiert wird; und Kontinuierliche Inferenz, die vollständig im Embedding-Raum schlussfolgert, um die Effizienz zu verbessern. Über vier Domänen hinweg – Mathematik, Logik, Commonsense und Planung – zeigen kontextuelle Embeddings unter kontinuierlicher Inferenz eine wettbewerbsfähige Leistung im Vergleich zu Chain-of-Thought (CoT), während die Inferenzzeit-FLOPs im Durchschnitt halbiert werden. Wir präsentieren auch frühe Anzeichen von Skalierbarkeit und modularer Anpassung. Schließlich führen wir zur Visualisierung latenter Trajektorien SentenceLens ein, ein Diagnosewerkzeug, das Zwischenzustände des Modells in interpretierbare Sätze dekodiert. Zusammengenommen deuten unsere Ergebnisse darauf hin, dass vortrainierte LMs effektiv zu abstraktem, strukturiertem Denken in latenten Embedding-Räumen übergehen können.
Der jüngste Erfolg von Text-zu-Bild-Diffusionsmodellen, wie z.B. Stable Diffusion, hat die Forschung angeregt, diese für die Erzeugung von 360-Grad-Panoramen anzupassen. Frühere Arbeiten haben die Machbarkeit der Verwendung konventioneller Low-Rank-Adaptationstechniken auf vortrainierten Diffusionsmodellen zur Generierung von Panoramabildern demonstriert. Die erhebliche Domänenlücke zwischen perspektivischen und panoramischen Bildern wirft jedoch Fragen zu den zugrunde liegenden Mechanismen auf, die diesen empirischen Erfolg ermöglichen. Wir stellen die Hypothese auf und untersuchen, dass die trainierbaren Komponenten unterschiedliche Verhaltensweisen zeigen, wenn sie auf Panoramadaten feinabgestimmt werden, und dass eine solche Anpassung einen intrinsischen Mechanismus verbirgt, um das Vorwissen innerhalb der vortrainierten Diffusionsmodelle zu nutzen. Unsere Analyse zeigt Folgendes: 1) Die Query- und Key-Matrizen in den Aufmerksamkeitsmodulen sind für gemeinsame Informationen verantwortlich, die zwischen den Panorama- und Perspektivdomänen geteilt werden können und daher weniger relevant für die Panoramaerzeugung sind; und 2) die Value- und Output-Gewichtsmatrizen spezialisieren sich darauf, das vortrainierte Wissen an die Panoramadomäne anzupassen, und spielen eine entscheidendere Rolle während der Feinabstimmung für die Panoramaerzeugung. Wir überprüfen diese Erkenntnisse empirisch durch die Einführung eines einfachen Frameworks namens UniPano, mit dem Ziel, eine elegante Basis für zukünftige Forschung zu schaffen. UniPano übertrifft nicht nur bestehende Methoden, sondern reduziert auch den Speicherverbrauch und die Trainingszeit im Vergleich zu früheren Dual-Branch-Ansätzen erheblich, was es skalierbar für die end-to-end-Panoramaerzeugung mit höherer Auflösung macht. Der Code wird veröffentlicht.
Ein Kennzeichen menschlicher Innovation ist der Prozess der Rekombination – die Schaffung origineller Ideen durch die Integration von Elementen bestehender Mechanismen und Konzepte. In dieser Arbeit automatisieren wir die Durchforstung der wissenschaftlichen Literatur und erstellen CHIMERA: eine groß angelegte Wissensdatenbank (KB) mit Beispielen für Rekombination. CHIMERA kann genutzt werden, um empirisch und in großem Maßstab zu erforschen, wie Wissenschaftler Konzepte rekombinieren und Inspiration aus verschiedenen Bereichen ziehen, oder um überwachte Machine-Learning-Modelle zu trainieren, die lernen, neue kreative, domänenübergreifende Richtungen vorherzusagen. Um diese KB zu erstellen, stellen wir eine neuartige Informationsextraktionsaufgabe vor, bei der Rekombinationen aus Abstracts wissenschaftlicher Artikel extrahiert werden, sammeln einen hochwertigen Korpus von Hunderten manuell annotierter Abstracts und nutzen diesen, um ein auf einem Large Language Model (LLM) basierendes Extraktionsmodell zu trainieren. Das Modell wird auf einen großen Korpus von Artikeln im Bereich der KI angewendet, was eine KB mit über 28.000 Rekombinationsbeispielen ergibt. Wir analysieren CHIMERA, um die Eigenschaften der Rekombination in verschiedenen Teilbereichen der KI zu untersuchen. Schließlich trainieren wir ein Modell zur Generierung wissenschaftlicher Hypothesen mithilfe der KB, das neue Rekombinationsrichtungen vorhersagt, die von Forschern in der Praxis als inspirierend empfunden werden. Unsere Daten und der Code sind verfügbar unter https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
Robustes Routing unter Unsicherheit ist zentral für die reale Logistik, doch die meisten Benchmarks gehen von statischen, idealisierten Bedingungen aus. Wir präsentieren SVRPBench, den ersten offenen Benchmark, der hochauflösende stochastische Dynamiken im Fahrzeugrouting im städtischen Maßstab erfasst. Mit über 500 Instanzen und bis zu 1000 Kunden simuliert er realistische Lieferbedingungen: zeitabhängige Staus, log-normale Verzögerungen, probabilistische Unfälle und empirisch fundierte Zeitfenster für private und gewerbliche Kunden. Unsere Pipeline erzeugt vielfältige, einschränkungsreiche Szenarien, einschließlich Multi-Depot- und Multi-Fahrzeug-Konfigurationen. Benchmarking zeigt, dass state-of-the-art RL-Löser wie POMO und AM bei Verteilungsverschiebungen um über 20 % schlechter abschneiden, während klassische und metaheuristische Methoden robust bleiben. Um reproduzierbare Forschung zu ermöglichen, veröffentlichen wir den Datensatz und das Evaluationspaket. SVRPBench fordert die Community heraus, Löser zu entwickeln, die über synthetische Annahmen hinaus generalisieren und sich an reale Unsicherheiten anpassen.
Große Sprachmodelle (LLMs) erzeugen typischerweise identische oder ähnliche Antworten für alle Benutzer bei gleichem Prompt, was ernsthafte Sicherheitsrisiken in hochsensiblen Anwendungen birgt, bei denen die Anfälligkeiten der Benutzer stark variieren. Bestehende Sicherheitsbewertungen stützen sich hauptsächlich auf kontextunabhängige Metriken – wie Faktentreue, Voreingenommenheit oder Toxizität – und übersehen dabei, dass dieselbe Antwort je nach Hintergrund oder Zustand des Benutzers unterschiedliche Risiken bergen kann. Wir führen personalisierte Sicherheit ein, um diese Lücke zu schließen, und präsentieren PENGUIN – einen Benchmark, der 14.000 Szenarien in sieben sensiblen Domänen mit sowohl kontextreichen als auch kontextfreien Varianten umfasst. Bei der Bewertung von sechs führenden LLMs zeigen wir, dass personalisierte Benutzerinformationen die Sicherheitswerte signifikant um 43,2 % verbessern, was die Wirksamkeit der Personalisierung bei der Sicherheitsausrichtung bestätigt. Allerdings tragen nicht alle Kontextattribute gleichermaßen zur Sicherheitsverbesserung bei. Um dies zu adressieren, entwickeln wir RAISE – ein trainingsfreies, zweistufiges Agenten-Framework, das strategisch benutzerspezifische Hintergrundinformationen erfasst. RAISE verbessert die Sicherheitswerte um bis zu 31,6 % gegenüber sechs Standard-LLMs, bei gleichzeitig geringen Interaktionskosten von durchschnittlich nur 2,7 Benutzeranfragen. Unsere Ergebnisse unterstreichen die Bedeutung selektiver Informationsbeschaffung in sicherheitskritischen Domänen und bieten eine praktische Lösung zur Personalisierung von LLM-Antworten ohne Modell-Neutraining. Diese Arbeit legt den Grundstein für Sicherheitsforschung, die sich an individuellen Benutzerkontexten orientiert, anstatt von einem universellen Schadensstandard auszugehen.
In Transformer-Architekturen werden Token\textemdash diskrete Einheiten, die aus Rohdaten abgeleitet werden\textemdash durch die Segmentierung von Eingaben in feste Längen gebildet. Jedes Token wird dann in ein Embedding abgebildet, wodurch parallele Aufmerksamkeitsberechnungen ermöglicht werden, während die wesentlichen Informationen der Eingabe erhalten bleiben. Aufgrund der quadratischen Rechenkomplexität der Selbstaufmerksamkeitsmechanismen von Transformern wurde Token-Reduktion hauptsächlich als Effizienzstrategie eingesetzt. Dies gilt insbesondere in den Bereichen der Einzelbild- und Sprachverarbeitung, wo sie dazu beiträgt, Rechenkosten, Speicherverbrauch und Inferenzlatenz auszugleichen. Trotz dieser Fortschritte argumentiert dieses Papier, dass Token-Reduktion im Zeitalter großer generativer Modelle ihre traditionelle, effizienzorientierte Rolle überschreiten sollte. Stattdessen positionieren wir sie als ein grundlegendes Prinzip im generativen Modellieren, das sowohl die Modellarchitektur als auch breitere Anwendungen entscheidend beeinflusst. Konkret behaupten wir, dass Token-Reduktion in den Bereichen Vision, Sprache und multimodale Systeme folgendes bewirken kann: (i) tiefere multimodale Integration und Ausrichtung erleichtern, (ii) „Überdenken“ und Halluzinationen mindern, (iii) Kohärenz bei langen Eingaben bewahren und (iv) die Trainingsstabilität verbessern, usw. Wir betrachten Token-Reduktion als mehr als nur eine Effizienzmaßnahme. Dadurch skizzieren wir vielversprechende zukünftige Richtungen, einschließlich Algorithmenentwicklung, Token-Reduktion durch verstärkendes Lernen, Token-Optimierung für In-Context-Lernen sowie breitere ML- und wissenschaftliche Anwendungsbereiche. Wir heben ihr Potenzial hervor, neue Modellarchitekturen und Lernstrategien voranzutreiben, die Robustheit erhöhen, Interpretierbarkeit verbessern und besser mit den Zielen des generativen Modellierens in Einklang stehen.
Da Large Language Models (LLMs) zunehmend an Mensch-KI-Interaktionen teilnehmen, wird die Bewertung ihrer Theory of Mind (ToM)-Fähigkeiten – insbesondere ihrer Fähigkeit, dynamische mentale Zustände zu verfolgen – entscheidend. Während bestehende Benchmarks grundlegende ToM-Fähigkeiten bewerten, konzentrieren sie sich überwiegend auf statische Momentaufnahmen mentaler Zustände und vernachlässigen die zeitliche Entwicklung, die reale soziale Interaktionen kennzeichnet. Wir stellen DynToM vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, den zeitlichen Verlauf mentaler Zustände in miteinander verbundenen Szenarien zu verstehen und zu verfolgen. Durch einen systematischen Vier-Schritte-Rahmen generieren wir 1.100 soziale Kontexte, die 5.500 Szenarien und 78.100 Fragen umfassen, die jeweils auf Realismus und Qualität validiert wurden. Unsere umfassende Bewertung von zehn state-of-the-art LLMs zeigt, dass ihre durchschnittliche Leistung um 44,7 % unter der von Menschen liegt, wobei die Leistung erheblich abnimmt, wenn es darum geht, den Wandel mentaler Zustände zu verfolgen und darüber zu schlussfolgern. Diese Leistungslücke verdeutlicht grundlegende Einschränkungen in der Fähigkeit aktueller LLMs, die dynamische Natur menschlicher mentaler Zustände zu modellieren.
Wir präsentieren „Denken mit generierten Bildern“, ein neuartiges Paradigma, das grundlegend verändert, wie große multimodale Modelle (LMMs) mit visuellem Denken interagieren, indem es ihnen ermöglicht, nativ über Text- und Bildmodalitäten hinweg zu denken, indem sie spontan Zwischenschritte des visuellen Denkens generieren. Derzeit ist das visuelle Denken mit LMMs darauf beschränkt, entweder feste, vom Benutzer bereitgestellte Bilder zu verarbeiten oder ausschließlich über textbasierte Ketten von Gedanken (Chain-of-Thought, CoT) zu schlussfolgern. „Denken mit generierten Bildern“ erschließt eine neue Dimension kognitiver Fähigkeiten, in der Modelle aktiv Zwischengedanken in visueller Form konstruieren, ihre eigenen visuellen Hypothesen kritisch hinterfragen und sie als integrale Bestandteile ihres Denkprozesses verfeinern können. Wir demonstrieren die Wirksamkeit unseres Ansatzes durch zwei komplementäre Mechanismen: (1) Bildgenerierung mit Zwischenzielen, bei der Modelle komplexe visuelle Aufgaben in handhabbare Komponenten zerlegen, die schrittweise generiert und integriert werden, und (2) Bildgenerierung mit Selbstkritik, bei der Modelle eine initiale visuelle Hypothese generieren, deren Schwächen durch textbasiertes Denken analysieren und auf Basis ihrer eigenen Kritik verfeinerte Ergebnisse erzeugen. Unsere Experimente auf Benchmarks zur Bildgenerierung zeigen deutliche Verbesserungen gegenüber Baseline-Ansätzen, wobei unsere Modelle eine relative Verbesserung von bis zu 50 % (von 38 % auf 57 %) bei der Bewältigung komplexer Szenarien mit mehreren Objekten erreichen. Von Biochemikern, die neue Proteinstrukturen erforschen, über Architekten, die räumliche Entwürfe iterieren, bis hin zu Forensikern, die Tatorte rekonstruieren, und Basketballspielern, die strategische Spielzüge visualisieren – unser Ansatz ermöglicht es KI-Modellen, sich an der Art von visueller Vorstellungskraft und iterativer Verfeinerung zu beteiligen, die menschliches kreatives, analytisches und strategisches Denken kennzeichnet. Wir veröffentlichen unser Open-Source-Paket unter https://github.com/GAIR-NLP/thinking-with-generated-images.
Diese Arbeit untersucht Ansätze zur Verbesserung der Fähigkeiten von Large Language Model (LLM)-Agenten im Bereich des logischen Denkens durch den Einsatz von Reinforcement Learning (RL). Insbesondere konzentrieren wir uns auf Szenarien mit mehrstufiger Werkzeugnutzung, die sich natürlich als Markov-Entscheidungsprozesse (MDPs) modellieren lassen. Während bestehende Ansätze oft mehrstufige LLM-Agenten mit trajektorienbasierter Vorteilsschätzung in Bandit-Settings trainieren, haben sie Schwierigkeiten mit der stufenweisen Zuweisung von Krediten über mehrere Entscheidungsschritte hinweg, was ihre Leistung bei mehrstufigen Denkaufgaben einschränkt. Um dies zu beheben, führen wir eine feingranulare, stufenweise Vorteilsschätzung ein, die eine präzisere Kreditzuweisung in mehrstufigen Agenteninteraktionen ermöglicht. Diese Strategie ist allgemein anwendbar und kann in verschiedene RL-Algorithmen wie Group Relative Preference Optimization (GRPO) integriert werden. Unsere experimentelle Auswertung von mehrstufigen Denkaufgaben und suchbasierten Werkzeugnutzungsaufgaben mit GRPO-Implementierungen unterstreicht die Wirksamkeit des MDP-Frameworks und der stufenweisen Kreditzuweisung bei der Weiterentwicklung der mehrstufigen Denkfähigkeiten von LLM-Agenten in komplexen Entscheidungssituationen. Unsere Methode erreicht eine 100%ige Erfolgsquote bei der Werkzeugausführung und eine 50%ige Genauigkeit bei der exakten Antwortübereinstimmung, was die Baselines deutlich übertrifft, die es nicht schaffen, Werkzeuge aufzurufen und nur eine 20-30%ige exakte Übereinstimmungsgenauigkeit erreichen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Denken durch Testzeit-Skalierungsansätze gezeigt, insbesondere wenn sie mit Chain-of-Thought (CoT)-Daten feinabgestimmt werden, die aus leistungsstärkeren großen Denkmodellen (LRMs) destilliert wurden. Diese Denkketten enthalten jedoch oft ausführliche Elemente, die menschliches Problemlösen widerspiegeln, kategorisiert als progressives Denken (der wesentliche Lösungsentwicklungspfad) und funktionale Elemente (Überprüfungsprozesse, alternative Lösungsansätze und Fehlerkorrekturen). Während progressives Denken entscheidend ist, erhöhen die funktionalen Elemente den Rechenaufwand während der Testzeit-Inferenz erheblich. Wir stellen PIR (Perplexity-based Importance Refinement) vor, ein prinzipielles Framework, das die Bedeutung jedes Denkschritts basierend auf seinem Einfluss auf die Vorhersagegenauigkeit der Antwort quantitativ bewertet. PIR identifiziert systematisch und beschneidet selektiv nur funktionale Schritte mit geringer Bedeutung, während die Komponenten des progressiven Denkens erhalten bleiben. Dadurch werden optimierte Trainingsdaten erstellt, die die Integrität des Kernlösungspfads bewahren und gleichzeitig die Ausführlichkeit reduzieren. Modelle, die auf PIR-optimierten Daten feinabgestimmt werden, zeigen überlegene Testzeit-Skalierungseigenschaften, erzeugen prägnantere Denkketten und erreichen eine verbesserte Genauigkeit (+0,9\% bis +6,6\%) bei deutlich reduzierter Token-Nutzung (-3\% bis -41\%) über anspruchsvolle Denkbenchmarks (AIME, AMC und GPQA Diamond) hinweg. Unser Ansatz zeigt eine starke Generalisierbarkeit über verschiedene Modellgrößen, Datenquellen und Token-Budgets hinweg und bietet eine praktische Lösung für den Einsatz von Denkfähigen LLMs in Szenarien, in denen effiziente Testzeit-Skalierung, Antwortzeit und Recheneffizienz wertvolle Einschränkungen darstellen.
Die effektive Extraktion, das Schlussfolgern und das Verstehen visuell reichhaltiger Informationen bleibt eine Herausforderung für RAG-Methoden (Retrieval-Augmented Generation). Traditionelle textbasierte Ansätze können visuelle Informationen nicht verarbeiten. Andererseits sind aktuelle vision-basierte RAG-Ansätze oft durch feste Pipelines eingeschränkt und haben Schwierigkeiten, effektiv zu schlussfolgern, da die grundlegenden Fähigkeiten der Modelle nicht ausreichend aktiviert werden. Da sich Reinforcement Learning (RL) als vorteilhaft für das Modellschließen erwiesen hat, führen wir VRAG-RL ein, ein neuartiges RL-Framework, das für komplexes Schlussfolgern über visuell reichhaltige Informationen entwickelt wurde. Mit diesem Framework interagieren Vision-Language-Models (VLMs) mit Suchmaschinen, wobei sie eigenständig Einzel- oder Mehrschritt-Schlussfolgerungspfade mithilfe von visuellen Wahrnehmungstokens samplen und kontinuierlich basierend auf diesen Samples optimiert werden. Unser Ansatz hebt zentrale Einschränkungen von RL in RAG-Domänen hervor: (i) Bisherige multimodale RAG-Ansätze integrieren Bilder oft nur oberflächlich in den Kontext, was zu einer unzureichenden Zuweisung von Schlussfolgerungstokens und einer Vernachlässigung der visuellen Wahrnehmung führt; und (ii) Wenn Modelle mit Suchmaschinen interagieren, scheitern ihre Anfragen oft daran, relevante Informationen abzurufen, da sie die Anforderungen nicht präzise artikulieren können, was zu suboptimaler Leistung führt. Um diese Herausforderungen zu bewältigen, definieren wir einen Aktionsraum, der speziell für visuell reichhaltige Eingaben entwickelt wurde, mit Aktionen wie Zuschneiden und Skalieren, die es dem Modell ermöglichen, Informationen von einer groben bis zu einer feinen Perspektive zu sammeln. Darüber hinaus verwenden wir eine einfache, aber effektive Belohnungsfunktion, die die Lücke zwischen den ursprünglichen Anfragen der Benutzer und dem Retriever überbrückt, indem sie das Umschreiben von Anfragen und die Retrieval-Leistung mit einer modellbasierten Belohnung integriert. Unser VRAG-RL optimiert VLMs für RAG-Aufgaben mithilfe speziell entwickelter RL-Strategien und passt das Modell an reale Anwendungen an. Der Code ist verfügbar unter https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Aktuelle Ansätze zur 3D-Kamerasteuerung in Video-Diffusionsmodellen (VDMs) erstellen häufig Ankervideos, um die Diffusionsmodelle als strukturierte Prior zu leiten, indem sie aus geschätzten Punktwolken entlang annotierter Kameratrajektorien rendern. Allerdings führen Fehler in der Punktwolkenschätzung oft zu ungenauen Ankervideos. Darüber hinaus erhöht die Anforderung umfangreicher Kameratrajektorien-Annotationen den Ressourcenbedarf weiter. Um diese Einschränkungen zu überwinden, führen wir EPiC ein, ein effizientes und präzises Framework zur Kamerasteuerung, das automatisch hochwertige Ankervideos ohne kostspielige Kameratrajektorien-Annotationen erstellt. Konkret erstellen wir hochpräzise Ankervideos für das Training, indem wir Quellvideos basierend auf der Sichtbarkeit des ersten Frames maskieren. Dieser Ansatz gewährleistet eine hohe Ausrichtung, eliminiert die Notwendigkeit von Kameratrajektorien-Annotationen und kann somit problemlos auf jedes beliebige Video angewendet werden, um Bild-zu-Video (I2V)-Trainingspaare zu generieren. Darüber hinaus führen wir Anchor-ControlNet ein, ein leichtgewichtiges Konditionierungsmodul, das die Ankervideo-Führung in sichtbaren Regionen in vortrainierte VDMs integriert, mit weniger als 1 % der Parameter des Basismodells. Durch die Kombination der vorgeschlagenen Ankervideo-Daten und des ControlNet-Moduls erreicht EPiC ein effizientes Training mit deutlich weniger Parametern, Trainingsschritten und weniger Daten, ohne dass Änderungen am Diffusionsmodell-Backbone erforderlich sind, die typischerweise zur Minderung von Rendering-Fehlausrichtungen benötigt werden. Obwohl unser Modell auf maskenbasierten Ankervideos trainiert wird, verallgemeinert es robust auf Ankervideos, die mit Punktwolken während der Inferenz erstellt wurden, und ermöglicht so eine präzise 3D-informierte Kamerasteuerung. EPiC erreicht state-of-the-art (SOTA) Leistung auf RealEstate10K und MiraData für die I2V-Kamerasteuerungsaufgabe und zeigt sowohl quantitativ als auch qualitativ präzise und robuste Kamerasteuerungsfähigkeiten. Bemerkenswerterweise zeigt EPiC auch eine starke Zero-Shot-Generalisierung auf Video-zu-Video-Szenarien.
Die Bildneuunterschriftung wird häufig verwendet, um Trainingsdatensätze mit verbesserter Qualität für verschiedene multimodale Aufgaben zu generieren. Bisherige Methoden zur Neuunterschriftung stützen sich typischerweise auf leistungsstarke multimodale große Sprachmodelle (MLLMs), um textuelle Beschreibungen zu verbessern, leiden jedoch oft unter Ungenauigkeiten aufgrund von Halluzinationen und Unvollständigkeit, die durch fehlende feingranulare Details verursacht werden. Um diese Einschränkungen zu überwinden, schlagen wir RICO vor, ein neuartiges Framework, das Bildunterschriften durch visuelle Rekonstruktion verfeinert. Konkret nutzen wir ein Text-zu-Bild-Modell, um eine Bildunterschrift in ein Referenzbild zu rekonstruieren, und fordern ein MLLM auf, Diskrepanzen zwischen dem Originalbild und dem rekonstruierten Bild zu identifizieren, um die Bildunterschrift zu verfeinern. Dieser Prozess wird iterativ durchgeführt, wodurch die Erstellung treuerer und umfassenderer Beschreibungen weiter gefördert wird. Um den zusätzlichen Rechenaufwand, der durch den iterativen Prozess entsteht, zu minimieren, führen wir RICO-Flash ein, das lernt, Bildunterschriften wie RICO mithilfe von DPO zu generieren. Umfangreiche Experimente zeigen, dass unser Ansatz die Genauigkeit und Vollständigkeit von Bildunterschriften signifikant verbessert und die meisten Vergleichsmethoden auf CapsBench und CompreCap um etwa 10 % übertrifft. Der Code ist unter https://github.com/wangyuchi369/RICO veröffentlicht.
Traditionelles RLHF optimiert Sprachmodelle mit groben, skalaren Belohnungen, die die feinkörnigen Gründe für Erfolg oder Misserfolg verdecken, was zu langsamem und undurchsichtigem Lernen führt. Neuere Arbeiten erweitern RL durch textuelle Kritiken mittels Prompting oder Reflexion, was die Interpretierbarkeit verbessert, aber die Modellparameter unverändert lässt. Wir stellen Text2Grad vor, ein Reinforcement-Learning-Paradigma, das freiformulierte textuelle Rückmeldungen in span-basierte Gradienten umwandelt. Bei menschlichen (oder programmatischen) Kritiken aligniert Text2Grad jede Rückmeldungsphrase mit den relevanten Token-Spans, wandelt diese Alignments in differenzierbare Belohnungssignale um und führt Gradientenupdates durch, die direkt die problematischen Teile der Modellpolitik verfeinern. Dies führt zu präzisen, rückmeldungsbedingten Anpassungen anstelle von globalen Korrekturen. Text2Grad wird durch drei Komponenten realisiert: (1) eine hochwertige Feedback-Annotation-Pipeline, die Kritiken mit Token-Spans verknüpft; (2) ein feinkörniges Belohnungsmodell, das span-basierte Belohnungen für Antworten vorhersagt und dabei erklärende Kritiken generiert; und (3) ein span-basierter Politikoptimierer, der natürliche Sprachgradienten zurückpropagiert. In den Bereichen Zusammenfassung, Code-Generierung und Fragebeantwortung übertrifft Text2Grad durchgängig skalare Belohnungs-RL und Prompt-basierte Baseline-Modelle, indem es sowohl höhere Aufgabenmetriken als auch reichere Interpretierbarkeit bietet. Unsere Ergebnisse zeigen, dass natürliche Sprachrückmeldungen, wenn sie in Gradienten umgewandelt werden, ein leistungsstarkes Signal für die feinkörnige Politikoptimierung sind. Der Code für unsere Methode ist verfügbar unter https://github.com/microsoft/Text2Grad.
Vision-Language-Modelle (VLMs) kombinieren typischerweise einen moderat großen Vision-Encoder mit einem großen Sprachmodell (LLM), z.B. Llama-70B, wodurch der Decoder die primäre Rechenlast während des Trainings darstellt. Um die Kosten zu senken, ist eine vielversprechende Strategie, den Vision-Encoder zunächst mit einem kleinen Sprachmodell zu trainieren, bevor er auf das große Modell übertragen wird. Wir konstruieren kleine „Surrogate-Modelle“, die denselben Einbettungsraum und dieselbe Repräsentationssprache wie das große Ziel-LLM teilen, indem sie dessen flache Schichten direkt übernehmen. Vision-Encoder, die auf dem Surrogate trainiert wurden, können dann direkt auf das größere Modell übertragen werden – ein Prozess, den wir als Zero-Shot-Grafting bezeichnen. Wenn das gepaarte Modell direkt in das vollständige Ziel-LLM integriert wird, übertrifft es das Encoder-Surrogate-Paar und erreicht auf einigen Benchmarks sogar eine vergleichbare Leistung wie das vollständige Decoder-Training mit dem Ziel-LLM. Darüber hinaus reduziert unser Surrogate-Trainingsansatz die Gesamtkosten für das VLM-Training um ~45 %, wenn Llama-70B als Decoder verwendet wird.
Die Erzeugung hochwertiger, mehrschichtiger transparenter Bilder aus Textprompts kann eine neue Ebene der kreativen Kontrolle freisetzen, die es Nutzern ermöglicht, jede Ebene so mühelos zu bearbeiten wie Textausgaben von LLMs. Allerdings hinkt die Entwicklung mehrschichtiger generativer Modelle der konventioneller Text-zu-Bild-Modelle hinterher, da es an einem umfangreichen, hochwertigen Korpus mehrschichtiger transparenter Daten mangelt. In diesem Papier gehen wir diese grundlegende Herausforderung an, indem wir: (i) den ersten offenen, ultrahochauflösenden PrismLayers (PrismLayersPro) Datensatz mit 200K (20K) mehrschichtigen transparenten Bildern mit präzisen Alpha-Matten veröffentlichen, (ii) eine trainingsfreie Synthese-Pipeline vorstellen, die solche Daten bedarfsgerecht mit verfügbaren Diffusionsmodellen erzeugt, und (iii) ein leistungsstarkes, quelloffenes mehrschichtiges Generationsmodell, ART+, liefern, das die Ästhetik moderner Text-zu-Bild-Generationsmodelle erreicht. Die wesentlichen technischen Beiträge umfassen: LayerFLUX, das sich durch die Erzeugung hochwertiger einzelner transparenter Ebenen mit präzisen Alpha-Matten auszeichnet, und MultiLayerFLUX, das mehrere LayerFLUX-Ausgaben zu vollständigen Bildern zusammensetzt, geleitet durch menschlich annotierte semantische Layouts. Um eine höhere Qualität zu gewährleisten, wenden wir eine strenge Filterungsphase an, um Artefakte und semantische Fehlanpassungen zu entfernen, gefolgt von einer menschlichen Auswahl. Das Feinabstimmen des state-of-the-art ART-Modells auf unser synthetisches PrismLayersPro ergibt ART+, das das ursprüngliche ART in 60% der direkten Nutzerstudienvergleiche übertrifft und sogar die visuelle Qualität der von FLUX.1-[dev] erzeugten Bilder erreicht. Wir gehen davon aus, dass unsere Arbeit eine solide Datensatzgrundlage für die Aufgabe der mehrschichtigen transparenten Bildgenerierung schaffen wird, die Forschung und Anwendungen ermöglicht, die präzise, bearbeitbare und visuell ansprechende geschichtete Bildmaterialien erfordern.
Vertrauenswürdige Verifizierer sind entscheidend für den Erfolg von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), der Kernmethodik hinter verschiedenen großen Reasoning-Modellen wie DeepSeek-R1. In komplexen Domänen wie dem mathematischen Reasoning wurden regelbasierte Verifizierer in früheren Arbeiten häufig eingesetzt, um leistungsstarke Reasoning-Modelle zu trainieren. Die Zuverlässigkeit dieser Verifizierer und ihre Auswirkungen auf den RL-Trainingsprozess sind jedoch noch weitgehend unerforscht. In dieser Arbeit nehmen wir das mathematische Reasoning als Fallstudie und führen eine umfassende Analyse verschiedener Verifizierer sowohl in statischen Evaluierungsszenarien als auch in RL-Trainingsszenarien durch. Zunächst stellen wir fest, dass aktuelle Open-Source-regelbasierte Verifizierer oft äquivalente Antworten, die in unterschiedlichen Formaten präsentiert werden, in mehreren häufig verwendeten mathematischen Datensätzen nicht erkennen, was zu nicht vernachlässigbaren falsch-negativen Raten führt. Diese Einschränkung beeinträchtigt die RL-Trainingsleistung und wird mit zunehmender Stärke des Policy-Modells noch deutlicher. Anschließend untersuchen wir modellbasierte Verifizierer als potenzielle Lösung zur Überwindung dieser Einschränkungen. Während die statische Evaluierung zeigt, dass modellbasierte Verifizierer eine deutlich höhere Verifizierungsgenauigkeit erreichen, deuten weitere Analysen und RL-Trainingsergebnisse darauf hin, dass sie anfällig für Hacking sind, bei dem bestimmte Muster in Antworten fälschlicherweise als korrekt klassifiziert werden (d.h. falsch-positive Ergebnisse). Diese Anfälligkeit wird während der Optimierung des Policy-Modells ausgenutzt, was zu künstlich aufgeblähten Belohnungen führt. Unsere Ergebnisse unterstreichen die einzigartigen Risiken, die sowohl regelbasierten als auch modellbasierten Verifizierern innewohnen, und zielen darauf ab, wertvolle Einblicke für die Entwicklung robusterer Belohnungssysteme im Reinforcement Learning zu bieten.
Die vielfältige Natur von Proteinvorhersageaufgaben hat traditionell spezialisierte Modelle erfordert, was die Entwicklung breit anwendbarer und recheneffizienter Protein-Sprachmodelle (Protein Language Models, PLMs) behindert hat. In dieser Arbeit stellen wir Prot2Token vor, ein einheitliches Framework, das diese Herausforderungen überwindet, indem es ein breites Spektrum proteinbezogener Vorhersagen – von sequenzbasierten Eigenschaften und residuenspezifischen Attributen bis hin zu komplexen Inter-Protein-Interaktionen – in ein standardisiertes Next-Token-Prediction-Format umwandelt. Im Kern verwendet Prot2Token einen autoregressiven Decoder, der auf Einbettungen vortrainierter Protein-Encoder basiert und durch lernbare Aufgaben-Tokens gesteuert wird, um diverse Vorhersagen durchzuführen. Diese Architektur ermöglicht einzigartig Multi-Task-Learning, wodurch ein einziges Modell zahlreiche Aufgaben mit verbesserter Effizienz meistern kann. Wir präsentieren umfangreiche experimentelle Validierungen über eine Vielzahl von Benchmarks hinweg, die die starke Vorhersagekraft von Prot2Token bei verschiedenen Arten von Proteinvorhersageaufgaben demonstrieren. Zu den wichtigsten Ergebnissen gehören signifikante Beschleunigungen (z. B. nahezu 1000x gegenüber AlphaFold2 mit MSA) und eine Leistung, die oft spezialisierte Ansätze erreicht oder übertrifft. Darüber hinaus führen wir einen zusätzlichen selbstüberwachten Decoder-Pre-Training-Ansatz ein, um die Leistung bei räumlich sensiblen Aufgaben zu verbessern. Prot2Token bietet somit einen bedeutenden Schritt hin zu einem vielseitigen, hochdurchsatzfähigen Paradigma für die Proteinmodellierung, das verspricht, die biologische Entdeckung und die Entwicklung neuartiger Therapeutika zu beschleunigen. Der Code ist unter https://github.com/mahdip72/prot2token verfügbar.
Manga, oder japanische Comics, sind eine reichhaltig multimodale Erzählform, die Bilder und Text auf komplexe Weise miteinander verbindet. Das Training großer multimodaler Modelle (LMMs), um solche Erzählungen auf einem menschenähnlichen Niveau zu verstehen, könnte Manga-Schöpfern helfen, ihre Geschichten zu reflektieren und zu verfeinern. Zu diesem Zweck führen wir zwei Benchmarks für das multimodale Manga-Verständnis ein: MangaOCR, das sich auf die Texterkennung innerhalb der Seiten konzentriert, und MangaVQA, einen neuartigen Benchmark, der entwickelt wurde, um das kontextuelle Verständnis durch visuelles Frage-Antworten zu bewerten. MangaVQA besteht aus 526 hochwertigen, manuell erstellten Frage-Antwort-Paaren, die eine zuverlässige Bewertung über diverse narrative und visuelle Szenarien hinweg ermöglichen. Aufbauend auf diesen Benchmarks entwickeln wir MangaLMM, ein auf Manga spezialisiertes Modell, das aus dem Open-Source-LMM Qwen2.5-VL feinabgestimmt wurde, um beide Aufgaben gemeinsam zu bewältigen. Durch umfangreiche Experimente, einschließlich Vergleichen mit proprietären Modellen wie GPT-4o und Gemini 2.5, bewerten wir, wie gut LMMs Manga verstehen. Unser Benchmark und Modell bieten eine umfassende Grundlage für die Bewertung und Weiterentwicklung von LMMs im reichhaltig narrativen Bereich des Manga.
Text-to-Image (T2I) Diffusionsmodelle haben bemerkenswerte Fortschritte im Bereich des generativen Modellierens erzielt; sie stehen jedoch vor einem Zielkonflikt zwischen Inferenzgeschwindigkeit und Bildqualität, was die effiziente Bereitstellung erschwert. Bestehende destillierte T2I-Modelle können hochwertige Bilder mit weniger Sampling-Schritten erzeugen, kämpfen jedoch oft mit Diversität und Qualität, insbesondere bei Ein-Schritt-Modellen. Aus unserer Analyse geht hervor, dass redundante Berechnungen in den UNet-Encodern auftreten. Unsere Erkenntnisse legen nahe, dass bei T2I-Diffusionsmodellen die Decoder besser geeignet sind, reichhaltigere und explizitere semantische Informationen zu erfassen, während Encoder effektiv über Decoder aus verschiedenen Zeitschritten hinweg geteilt werden können. Basierend auf diesen Beobachtungen führen wir den ersten zeitunabhängigen Unified Encoder (TiUE) für die UNet-Architektur des Schülermodells ein, der einen schleifenfreien Ansatz zur Bildgenerierung für die Destillation von T2I-Diffusionsmodellen darstellt. Durch ein Ein-Pass-Schema teilt TiUE Encoder-Features über mehrere Decoder-Zeitschritte hinweg, ermöglicht paralleles Sampling und reduziert die Inferenzzeitkomplexität erheblich. Zusätzlich integrieren wir einen KL-Divergenz-Term zur Regularisierung der Rauschvorhersage, was den wahrnehmbaren Realismus und die Vielfalt der generierten Bilder verbessert. Experimentelle Ergebnisse zeigen, dass TiUE state-of-the-art Methoden wie LCM, SD-Turbo und SwiftBrushv2 übertrifft, indem es vielfältigere und realistischere Ergebnisse liefert und dabei die Recheneffizienz beibehält.
Generative KI-Modelle lernen und reproduzieren oft falsche Informationen, die in ihren Trainingskorpora enthalten sind. Dieses Positionspapier argumentiert, dass, analog zur biologischen Immunisierung, bei der eine kontrollierte Exposition gegenüber einem abgeschwächten Erreger Immunität aufbaut, KI-Modelle auf kleinen, abgeschotteten Datensätzen explizit gekennzeichneter Falschinformationen feinabgestimmt werden sollten, um sie als „Impfstoff“ gegen Fehlinformationen zu nutzen. Diese kuratierten Beispiele für Falschinformationen werden während des Feinabstimmungsprozesses periodisch injiziert, wodurch die Fähigkeit des Modells gestärkt wird, irreführende Behauptungen zu erkennen und abzulehnen, während die Genauigkeit bei wahrheitsgemäßen Eingaben erhalten bleibt. Eine illustrative Fallstudie zeigt, dass immunisierte Modelle deutlich weniger Fehlinformationen erzeugen als Baseline-Modelle. Unseres Wissens ist dies der erste Trainingsrahmen, der faktisch überprüfte Falschinformationen selbst als überwachten Impfstoff behandelt, anstatt sich auf Eingabestörungen oder generische menschliche Feedback-Signale zu verlassen, um Modelle gegen zukünftige Fehlinformationen zu härten. Wir skizzieren auch ethische Sicherheitsvorkehrungen und Governance-Kontrollen, um den sicheren Umgang mit falschen Daten zu gewährleisten. Die Modellimmunisierung bietet ein proaktives Paradigma, um KI-Systeme mit Fakten zu vereinbaren.
Die sofortige Stilisierung von 3D-Szenen bei gleichzeitiger Wahrung der Multi-View-Konsistenz und treuen Ähnlichkeit zu einem Stilbild bleibt eine erhebliche Herausforderung. Aktuelle State-of-the-Art-Methoden zur 3D-Stilisierung beinhalten in der Regel rechenintensive Optimierungen zur Laufzeit, um künstlerische Merkmale in eine vortrainierte 3D-Darstellung zu übertragen, wobei häufig dichte, pose-kalibrierte Eingabebilder erforderlich sind. Im Gegensatz dazu nutzen wir die jüngsten Fortschritte in vorwärtsgerichteten Rekonstruktionsmodellen und präsentieren einen neuartigen Ansatz, der eine direkte 3D-Stilisierung in weniger als einer Sekunde ermöglicht, indem unkalibrierte, spärliche Ansichten von Szenenbildern und ein beliebiges Stilbild verwendet werden. Um die inhärente Entkopplung zwischen Rekonstruktion und Stilisierung zu adressieren, führen wir eine verzweigte Architektur ein, die die Strukturmodellierung und die Erscheinungsbeleuchtung trennt und dadurch effektiv verhindert, dass die stilistische Übertragung die zugrunde liegende 3D-Szenenstruktur verzerrt. Darüber hinaus passen wir einen Identitätsverlust an, um das Vortraining unseres Stilisierungsmodells durch die Aufgabe der neuartigen Ansichtssynthese zu erleichtern. Diese Strategie ermöglicht es unserem Modell auch, seine ursprünglichen Rekonstruktionsfähigkeiten beizubehalten, während es für die Stilisierung feinabgestimmt wird. Umfassende Bewertungen, die sowohl in-domain als auch out-of-domain Datensätze verwenden, zeigen, dass unser Ansatz hochwertige stilisierte 3D-Inhalte erzeugt, die eine überlegene Kombination aus Stil und Szenenaussehen erreichen, während er gleichzeitig bestehende Methoden in Bezug auf Multi-View-Konsistenz und Effizienz übertrifft.
Eine effektive Datenauswahl ist entscheidend für das effiziente Training moderner Large Language Models (LLMs). Dieses Paper stellt Influence Distillation vor, einen neuartigen, mathematisch fundierten Rahmen für die Datenauswahl, der Informationen zweiter Ordnung nutzt, um Trainingsbeispiele optimal zu gewichten. Indem der Einfluss jedes Beispiels auf eine Zielverteilung destilliert wird, weist unsere Methode modellspezifische Gewichte zu, die zur Auswahl von Trainingsdaten für das Fine-Tuning von LLMs verwendet werden, um eine starke Leistung im Zielbereich zu erzielen. Wir leiten diese optimalen Gewichte sowohl für den Gradient Descent- als auch für den Adam-Optimierer ab. Um Skalierbarkeit zu gewährleisten und die Rechenkosten zu reduzieren, schlagen wir eine land-markenbasierte Approximation vor: Der Einfluss wird präzise für eine kleine Teilmenge von „Landmarken“-Beispielen berechnet und dann effizient auf alle anderen Beispiele übertragen, um deren Gewichte zu bestimmen. Wir validieren Influence Distillation, indem wir es auf das Instruction Tuning des Tulu V2-Datensatzes anwenden, wobei eine Reihe von Aufgaben wie GSM8k, SQuAD und MMLU über mehrere Modelle der Llama- und Qwen-Familien abgedeckt werden. Experimente zeigen, dass Influence Distillation die state-of-the-art Leistung erreicht oder übertrifft und dabei eine bis zu 3,5-fach schnellere Auswahl ermöglicht.
Jüngste Fortschritte in visuellen Sprachmodellen (VLMs) haben außergewöhnliche Leistungen bei visuellen Denkaufgaben gezeigt. Die Geo-Lokalisierung stellt jedoch einzigartige Herausforderungen dar, da sie die Extraktion mehrgranularer visueller Hinweise aus Bildern und deren Integration mit externem Weltwissen für systematisches Denken erfordert. Aktuelle Ansätze für Geo-Lokalisierungsaufgaben mangelt es oft an robusten Denkmechanismen und Erklärbarkeit, was ihre Effektivität einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir die Geo Reason Enhancement (GRE) Suite vor, ein neuartiges Framework, das VLMs mit strukturierten Denkketten für präzise und interpretierbare Standortinferenzen erweitert. Die GRE Suite wird systematisch über drei Schlüsseldimensionen entwickelt: Datensatz, Modell und Benchmark. Zunächst führen wir GRE30K ein, einen hochwertigen Geo-Lokalisierungs-Denkdatensatz, der feinkörnige visuelle und kontextuelle Analysen ermöglicht. Anschließend präsentieren wir das GRE-Modell, das eine mehrstufige Denkstrategie verwendet, um Szenenattribute, lokale Details und semantische Merkmale schrittweise abzuleiten und so potenzielle geografische Regionen mit erhöhter Präzision einzugrenzen. Schließlich konstruieren wir den Geo Reason Evaluation Benchmark (GREval-Bench), ein umfassendes Bewertungsframework, das VLMs über diverse urbane, natürliche und Wahrzeichen-Szenen hinweg bewertet, um sowohl grobkörnige (z. B. Land, Kontinent) als auch feinkörnige (z. B. Stadt, Straße) Lokalisierungsleistungen zu messen. Experimentelle Ergebnisse zeigen, dass GRE bestehende Methoden über alle Granularitäten von Geo-Lokalisierungsaufgaben hinweg deutlich übertrifft, was die Wirksamkeit von Denk-erweiterten VLMs bei komplexen geografischen Inferenzen unterstreicht. Code und Daten werden unter https://github.com/Thorin215/GRE veröffentlicht.
Das explosive Wachstum generativer Videomodelle hat die Nachfrage nach zuverlässigem Urheberrechtsschutz für KI-generierte Inhalte verstärkt. Trotz seiner Beliebtheit in der Bildsynthese bleibt unsichtbares generatives Wasserzeichen weitgehend unerforscht in der Videogenerierung. Um diese Lücke zu schließen, schlagen wir Safe-Sora vor, das erste Framework, das grafische Wasserzeichen direkt in den Videogenerierungsprozess einbettet. Motiviert durch die Beobachtung, dass die Leistung von Wasserzeichen eng mit der visuellen Ähnlichkeit zwischen dem Wasserzeichen und dem Cover-Inhalt verbunden ist, führen wir einen hierarchischen, grob- bis fein-abgestimmten adaptiven Matching-Mechanismus ein. Konkret wird das Wasserzeichenbild in Patches unterteilt, die jeweils dem visuell ähnlichsten Videobild zugeordnet werden, und weiter auf die optimale räumliche Region für eine nahtlose Einbettung lokalisiert. Um die raumzeitliche Fusion von Wasserzeichenpatches über Videobilder hinweg zu ermöglichen, entwickeln wir eine 3D-Wavelet-Transform-verstärkte Mamba-Architektur mit einer neuartigen raumzeitlichen lokalen Scannstrategie, die effektiv langreichweitige Abhängigkeiten während der Wasserzeicheneinbettung und -rückgewinnung modelliert. Nach bestem Wissen ist dies der erste Versuch, Zustandsraummodelle auf Wasserzeichen anzuwenden, was neue Wege für effizienten und robusten Wasserzeichenschutz eröffnet. Umfangreiche Experimente zeigen, dass Safe-Sora in Bezug auf Videoqualität, Wasserzeichenfidelität und Robustheit state-of-the-art Leistungen erzielt, was maßgeblich auf unsere Vorschläge zurückzuführen ist. Wir werden unseren Code nach der Veröffentlichung freigeben.
Verstärkungslernen (Reinforcement Learning, RL) hat erhebliche Fortschritte in der Robotik vorangetrieben, doch seine Komplexität und langen Trainingszeiten bleiben wesentliche Engpässe. In diesem Bericht stellen wir FastTD3 vor, einen einfachen, schnellen und leistungsfähigen RL-Algorithmus, der das Training für humanoide Roboter in gängigen Umgebungen wie HumanoidBench, IsaacLab und MuJoCo Playground erheblich beschleunigt. Unser Ansatz ist bemerkenswert einfach: Wir trainieren einen Off-Policy-TD3-Agenten mit mehreren Modifikationen – parallele Simulation, große Batch-Updates, ein distributioneller Kritiker und sorgfältig abgestimmte Hyperparameter. FastTD3 löst eine Reihe von HumanoidBench-Aufgaben in weniger als 3 Stunden auf einer einzelnen A100-GPU, während es während des Trainings stabil bleibt. Zudem bieten wir eine leichtgewichtige und benutzerfreundliche Implementierung von FastTD3 an, um die RL-Forschung in der Robotik zu beschleunigen.
Die Feinabstimmung von Large Language Models (LLMs) hat deren Fähigkeit, Anweisungen zu befolgen, erheblich verbessert, doch die zugrunde liegenden rechnerischen Mechanismen, die diese Fortschritte vorantreiben, bleiben weitgehend unverstanden. Diese Studie untersucht systematisch, wie die Feinabstimmung die Berechnungen von LLMs neu konfiguriert, indem sie anweisungsspezifische spärliche Komponenten isoliert und analysiert, d. h. Neuronen in dichten Modellen sowie sowohl Neuronen als auch Experten in Mixture-of-Experts (MoE)-Architekturen. Insbesondere führen wir HexaInst ein, ein sorgfältig kuratiertes und ausgewogenes Anweisungsdatenset, das sechs verschiedene Kategorien umfasst, und schlagen SPARCOM vor, einen neuartigen analytischen Rahmen, der drei wesentliche Beiträge umfasst: (1) eine Methode zur Identifizierung dieser spärlichen Komponenten, (2) eine Bewertung ihrer funktionalen Allgemeinheit und Einzigartigkeit sowie (3) einen systematischen Vergleich ihrer Veränderungen. Durch Experimente demonstrieren wir die funktionale Allgemeinheit, Einzigartigkeit und die entscheidende Rolle dieser Komponenten bei der Ausführung von Anweisungen. Indem wir die Beziehung zwischen feinabstimmungsinduzierten Anpassungen und spärlichen rechnerischen Substraten aufklären, bietet diese Arbeit tiefere Einblicke in die Art und Weise, wie LLMs das Verhalten der Anweisungsbefolgung internalisieren, und trägt zur vertrauenswürdigen LLM-Community bei.
Intelligente Tutorensysteme in Kombination mit großen Sprachmodellen bieten einen vielversprechenden Ansatz, um die unterschiedlichen Bedürfnisse von Studierenden zu adressieren und selbstwirksames Lernen zu fördern. Obwohl große Sprachmodelle über ein gutes Grundlagenwissen in den Grundlagen der Elektrotechnik verfügen, sind sie noch nicht ausreichend in der Lage, spezifische Fragen zu elektrischen Schaltungen zu beantworten. In diesem Artikel stellen wir AITEE vor, ein agentenbasiertes Tutorensystem für die Elektrotechnik, das Studierende während ihres Lernprozesses begleitet, individuelle Unterstützung bietet und selbstgesteuertes Lernen fördert. AITEE unterstützt sowohl handgezeichnete als auch digitale Schaltungen durch einen angepassten Schaltungsrekonstruktionsprozess, was eine natürliche Interaktion mit den Studierenden ermöglicht. Unser neuartiges graphenbasiertes Ähnlichkeitsmaß identifiziert relevanten Kontext aus Vorlesungsmaterialien durch einen Retrieval-Augmented-Generation-Ansatz, während parallele Spice-Simulationen die Genauigkeit bei der Anwendung von Lösungsmethoden weiter verbessern. Das System implementiert einen sokratischen Dialog, um die Lernautonomie durch gezieltes Fragen zu fördern. Experimentelle Auswertungen zeigen, dass AITEE Baseline-Ansätze in der domänenspezifischen Wissensanwendung deutlich übertrifft, wobei selbst mittelgroße LLM-Modelle akzeptable Leistungen zeigen. Unsere Ergebnisse unterstreichen das Potenzial agentenbasierter Tutoren, skalierbare, personalisierte und effektive Lernumgebungen für die Elektrotechnikausbildung zu schaffen.
Vision-Language-Modelle (VLMs) haben bedeutende Fortschritte bei multimodalen Aufgaben erzielt. Allerdings verschlechtert sich ihre Leistung häufig in Langzeitkontext-Szenarien, insbesondere bei langen Videos. Während Rotary Position Embedding (RoPE) weit verbreitet für die Längengeneralisierung in Large Language Models (LLMs) eingesetzt wird, bleibt die Erweiterung des Standard-RoPE zur Erfassung der komplexen räumlich-zeitlichen Abhängigkeiten in Videos eine ungelöste Herausforderung. Bestehende Methoden weisen typischerweise unterschiedliche Frequenzen innerhalb von RoPE zu, um 3D-Positionsinformationen zu kodieren. Diese Zuordnungsstrategien basieren jedoch hauptsächlich auf Heuristiken und es fehlt an tiefergehender theoretischer Analyse. In diesem Artikel untersuchen wir zunächst, wie verschiedene Zuordnungsstrategien die Langzeitkontext-Fähigkeiten von VLMs beeinflussen. Unsere Analyse zeigt, dass aktuelle multimodale RoPEs semantische Ähnlichkeiten über längere Kontexte nicht zuverlässig erfassen können. Um dieses Problem zu lösen, schlagen wir HoPE vor, ein Hybrid Position Embedding, das entwickelt wurde, um die Langzeitkontext-Fähigkeiten von VLMs zu verbessern. HoPE führt eine hybride Frequenzzuordnungsstrategie für zuverlässige semantische Modellierung über beliebig lange Kontexte ein und einen dynamischen temporalen Skalierungsmechanismus, um robustes Lernen und flexible Inferenz über verschiedene Kontextlängen zu ermöglichen. Umfangreiche Experimente über vier Video-Benchmarks für Aufgaben zur Langzeitvideo-Verständnis und -Rückgewinnung zeigen, dass HoPE bestehende Methoden durchgängig übertrifft und seine Wirksamkeit bestätigt. Der Code ist verfügbar unter https://github.com/hrlics/HoPE.
Das schnelle Wachstum von Open-Source-Ressourcen für maschinelles Lernen (ML), wie Modellen und Datensätzen, hat die IR-Forschung beschleunigt. Allerdings nutzen bestehende Plattformen wie Hugging Face strukturierte Repräsentationen nicht explizit, was fortgeschrittene Abfragen und Analysen, wie die Nachverfolgung der Modellentwicklung und die Empfehlung relevanter Datensätze, einschränkt. Um diese Lücke zu schließen, haben wir HuggingKG konstruiert, den ersten groß angelegten Wissensgraphen, der aus der Hugging-Face-Community für das ML-Ressourcenmanagement erstellt wurde. Mit 2,6 Millionen Knoten und 6,2 Millionen Kanten erfasst HuggingKG domänenspezifische Beziehungen und umfangreiche textuelle Attribute. Dies ermöglicht es uns, HuggingBench vorzustellen, einen Multi-Task-Benchmark mit drei neuartigen Testkollektionen für IR-Aufgaben, einschließlich Ressourcenempfehlung, Klassifizierung und Nachverfolgung. Unsere Experimente offenbaren einzigartige Eigenschaften von HuggingKG und den daraus abgeleiteten Aufgaben. Beide Ressourcen sind öffentlich verfügbar und sollen die Forschung im Bereich des Open-Source-Ressourcenteilens und -managements vorantreiben.
Das Verständnis funktionaler Repräsentationen innerhalb des höheren visuellen Kortex ist eine grundlegende Frage in der Computational Neuroscience. Während künstliche neuronale Netze, die auf groß angelegten Datensätzen vortrainiert wurden, eine bemerkenswerte Übereinstimmung mit menschlichen neuronalen Reaktionen zeigen, basiert das Lernen von bildberechnungsfähigen Modellen des visuellen Kortex auf individuellen, groß angelegten fMRI-Datensätzen. Die Notwendigkeit teurer, zeitintensiver und oft unpraktischer Datenerfassung begrenzt die Generalisierbarkeit von Encodern auf neue Probanden und Reize. BraInCoRL nutzt In-Context-Lernen, um voxelweise neuronale Reaktionen aus wenigen Beispielen vorherzusagen, ohne zusätzliche Feinabstimmung für neue Probanden und Reize. Wir nutzen eine Transformer-Architektur, die flexibel auf eine variable Anzahl von In-Context-Bildreizen konditionieren kann und dabei eine induktive Verzerrung über mehrere Probanden hinweg lernt. Während des Trainings optimieren wir das Modell explizit für In-Context-Lernen. Durch gemeinsame Konditionierung auf Bildmerkmale und Voxelaktivierungen lernt unser Modell, direkt besser performende voxelweise Modelle des höheren visuellen Kortex zu generieren. Wir zeigen, dass BraInCoRL im Niedrigdatenbereich bei der Bewertung völlig neuer Bilder bestehende voxelweise Encoder-Designs konsequent übertrifft, während es gleichzeitig ein starkes Skalierungsverhalten zur Testzeit aufweist. Das Modell generalisiert auch auf einen völlig neuen visuellen fMRI-Datensatz, der unterschiedliche Probanden und fMRI-Datenerfassungsparameter verwendet. Darüber hinaus ermöglicht BraInCoRL eine bessere Interpretierbarkeit neuronaler Signale im höheren visuellen Kortex, indem es auf semantisch relevante Reize achtet. Schließlich zeigen wir, dass unser Framework interpretierbare Abbildungen von natürlichen Sprachabfragen auf Voxelselektivität ermöglicht.
Während die Fähigkeiten von Large Language Models (LLMs) sowohl in vereinfachtem als auch in traditionellem Chinesisch untersucht wurden, ist noch unklar, ob LLMs unterschiedliche Leistungen zeigen, wenn sie in diesen beiden Varianten der chinesischen Schriftsprache angeregt werden. Dieses Verständnis ist entscheidend, da Unterschiede in der Qualität der LLM-Antworten repräsentative Schäden verstärken können, indem sie die verschiedenen kulturellen Kontexte, die vereinfachtem und traditionellem Chinesisch zugrunde liegen, ignorieren, und können nachgelagerte Schäden in LLM-gestützten Entscheidungsprozessen in Bereichen wie Bildung oder Einstellung verschärfen. Um potenzielle Leistungsunterschiede bei LLMs zu untersuchen, entwerfen wir zwei Benchmark-Aufgaben, die reale Szenarien widerspiegeln: die Wahl regionaler Begriffe (Anregung des LLM, ein beschriebenes Objekt zu benennen, das in Festlandchina und Taiwan unterschiedlich bezeichnet wird) und die Wahl regionaler Namen (Anregung des LLM, aus einer Liste von Namen in vereinfachtem und traditionellem Chinesisch auszuwählen, wen man einstellen soll). Für beide Aufgaben überprüfen wir die Leistung von 11 führenden kommerziellen LLM-Diensten und Open-Source-Modellen – darunter solche, die hauptsächlich auf Englisch, vereinfachtem Chinesisch oder traditionellem Chinesisch trainiert wurden. Unsere Analysen zeigen, dass Verzerrungen in den LLM-Antworten sowohl von der Aufgabe als auch von der Anregungssprache abhängen: Während die meisten LLMs in der Aufgabe zur Wahl regionaler Begriffe überproportional vereinfachtes Chinesisch bevorzugten, bevorzugten sie überraschenderweise traditionelle chinesische Namen in der Aufgabe zur Wahl regionaler Namen. Wir stellen fest, dass diese Unterschiede auf Unterschiede in der Repräsentation der Trainingsdaten, Präferenzen für Schriftzeichen und Tokenisierung von vereinfachtem und traditionellem Chinesisch zurückzuführen sein könnten. Diese Ergebnisse unterstreichen die Notwendigkeit einer weiteren Analyse von LLM-Verzerrungen; daher stellen wir einen Open-Source-Benchmark-Datensatz zur Verfügung, um reproduzierbare Bewertungen des zukünftigen Verhaltens von LLMs über chinesische Sprachvarianten hinweg zu fördern (https://github.com/brucelyu17/SC-TC-Bench).
Das Verständnis der Objektausrichtung stellt eine grundlegende Herausforderung in der visuellen Wahrnehmung dar, die für Anwendungen wie die robotergestützte Manipulation und erweiterte Realität entscheidend ist. Aktuelle Vision-Sprache-Benchmarks isolieren diese Fähigkeit nicht ausreichend, da sie sie oft mit Positionsbeziehungen und allgemeinem Szenenverständnis vermischen. Wir stellen DORI (Discriminative Orientation Reasoning Intelligence) vor, einen umfassenden Benchmark, der die Wahrnehmung der Objektausrichtung als primäres Bewertungsziel etabliert. DORI bewertet vier Dimensionen der Orientierungserfassung: frontale Ausrichtung, Rotationsumwandlungen, relative Richtungsbeziehungen und das Verständnis der kanonischen Ausrichtung. Durch sorgfältig kuratierte Aufgaben aus 11 Datensätzen, die 67 Objektkategorien in synthetischen und realen Szenarien umfassen, bietet DORI Einblicke, wie multimodale Systeme Objektausrichtungen verstehen. Unsere Bewertung von 15 modernsten Vision-Sprache-Modellen zeigt kritische Einschränkungen: Selbst die besten Modelle erreichen nur 54,2 % Genauigkeit bei groben Aufgaben und 33,0 % bei detaillierten Orientierungsbeurteilungen, wobei die Leistung bei Aufgaben, die Referenzrahmenwechsel oder zusammengesetzte Rotationen erfordern, abnimmt. Diese Ergebnisse verdeutlichen die Notwendigkeit spezieller Mechanismen zur Darstellung der Ausrichtung, da Modelle systematisch unfähig sind, präzise Winkelabschätzungen durchzuführen, Orientierungsänderungen über verschiedene Blickwinkel hinweg zu verfolgen und zusammengesetzte Rotationen zu verstehen – was auf Einschränkungen in ihren internen 3D-Raumdarstellungen hindeutet. Als erstes Diagnoseframework, das speziell für das Bewusstsein der Ausrichtung in multimodalen Systemen entwickelt wurde, bietet DORI Implikationen für die Verbesserung der robotergestützten Steuerung, der 3D-Szenenrekonstruktion und der Mensch-KI-Interaktion in physischen Umgebungen. DORI-Daten: https://huggingface.co/datasets/appledora/DORI-Benchmark
Das zeitliche Verständnis von Videos ist entscheidend für multimodale große Sprachmodelle (MLLMs), um Ereignisse in Videos zu analysieren. Trotz jüngster Fortschritte im allgemeinen Video-Verständnis haben aktuelle MLLMs weiterhin Schwierigkeiten mit feinkörnigem zeitlichem Schließen. Obwohl Reinforcement Learning (RL) kürzlich zur Lösung dieses Problems untersucht wurde, bleiben bestehende RL-Ansätze in ihrer Wirksamkeit begrenzt. In dieser Arbeit schlagen wir MUSEG vor, eine neuartige RL-basierte Methode, die das zeitliche Verständnis durch die Einführung einer zeitstempelbewussten Multi-Segment-Verankerung verbessert. MUSEG ermöglicht es MLLMs, Anfragen mit mehreren relevanten Videosegmenten abzugleichen, wodurch ein umfassenderes zeitliches Schließen gefördert wird. Um effektives Lernen zu ermöglichen, entwerfen wir ein maßgeschneidertes RL-Trainingsschema mit phasenweisen Belohnungen, das das Modell schrittweise zu zeitlich verankertem Schließen führt. Umfangreiche Experimente zur zeitlichen Verankerung und zeitkritischen Video-Frage-Antwort-Aufgaben zeigen, dass MUSEG bestehende Methoden deutlich übertrifft und sich gut über verschiedene Szenarien des zeitlichen Verständnisses verallgemeinern lässt. Unser Projekt ist unter https://github.com/THUNLP-MT/MUSEG einsehbar.
Große Sprachmodelle (LLMs) erwerben während des Pretrainings oft Wissen, das in nachgelagerten Anwendungen unerwünscht ist, z. B. sensible Informationen oder urheberrechtlich geschützte Inhalte. Bestehende Ansätze zur Entfernung solchen Wissens basieren auf Feinabstimmung, dem Training von Low-Rank-Adaptern oder der Bearbeitung auf Faktenebene, doch diese sind entweder zu grob, zu oberflächlich oder unwirksam. In dieser Arbeit schlagen wir PISCES (Precise In-parameter Suppression for Concept EraSure) vor, ein neuartiges Framework, das gezielt ganze Konzepte aus den Modellparametern löscht, indem es direkt die Richtungen bearbeitet, die diese im Parameterraum kodieren. PISCES verwendet ein Disentangler-Modell, um MLP-Vektoren in interpretierbare Merkmale zu zerlegen, identifiziert mithilfe automatisierter Interpretierbarkeitstechniken jene, die mit einem Zielkonzept assoziiert sind, und entfernt sie aus den Modellparametern. Experimente mit Gemma 2 und Llama 3.1 über verschiedene Konzepte zeigen, dass PISCES bescheidene Verbesserungen in der Wirksamkeit gegenüber führenden Löschmethoden erzielt, indem die Genauigkeit beim Zielkonzept auf bis zu 7,7 % reduziert wird, während gleichzeitig die Löschspezifität (um bis zu 31 %) und Robustheit (um bis zu 38 %) deutlich verbessert werden. Insgesamt demonstrieren diese Ergebnisse, dass die merkmalsbasierte Bearbeitung im Parameterraum einen präziseren und zuverlässigeren Ansatz zur Entfernung konzeptuellen Wissens in Sprachmodellen ermöglicht.
Die Sprach-Bild-Vortrainierung hat in der 2D-Medizinbildgebung starke Leistungen gezeigt, ihr Erfolg in 3D-Modalitäten wie CT und MRT bleibt jedoch aufgrund des hohen Rechenaufwands von Volumendaten begrenzt, was eine erhebliche Hürde für das Training auf großen, unkuratierten klinischen Studien darstellt. In dieser Studie stellen wir Hierarchical Attention for Language-Image Pre-training (HLIP) vor, ein skalierbares Vortrainierungsframework für die 3D-Medizinbildgebung. HLIP verwendet einen leichtgewichtigen hierarchischen Aufmerksamkeitsmechanismus, der von der natürlichen Hierarchie radiologischer Daten inspiriert ist: Schicht, Scan und Studie. Dieser Mechanismus zeigt eine starke Generalisierbarkeit, z. B. +4,3 % Makro-AUC auf dem Rad-ChestCT-Benchmark, wenn auf CT-RATE vortrainiert. Darüber hinaus ermöglicht die Recheneffizienz von HLIP ein direktes Training auf unkuratierten Datensätzen. Nach dem Training auf 220.000 Patienten mit 3,13 Millionen Scans für Gehirn-MRT und 240.000 Patienten mit 1,44 Millionen Scans für Kopf-CT erreicht HLIP Spitzenleistungen, z. B. +32,4 % Balanced ACC auf dem vorgeschlagenen öffentlich verfügbaren Gehirn-MRT-Benchmark Pub-Brain-5; +1,4 % und +6,9 % Makro-AUC auf den Kopf-CT-Benchmarks RSNA und CQ500. Diese Ergebnisse zeigen, dass mit HLIP das direkte Vortrainieren auf unkuratierten klinischen Datensätzen eine skalierbare und effektive Richtung für die Sprach-Bild-Vortrainierung in der 3D-Medizinbildgebung ist. Der Code ist verfügbar unter https://github.com/Zch0414/hlip.
Das Verstehen und Ableiten kausaler Zusammenhänge aus Texten ist ein zentraler Aspekt der menschlichen Kognition und essenziell für die Weiterentwicklung großer Sprachmodelle (LLMs) hin zu künstlicher allgemeiner Intelligenz. Bisherige Arbeiten konzentrieren sich hauptsächlich auf synthetisch generierte Texte, die einfache, explizit erwähnte kausale Beziehungen enthalten. Dies spiegelt jedoch nicht die Komplexität realer Aufgaben wider. In dieser Arbeit untersuchen wir, ob LLMs in der Lage sind, kausale Zusammenhänge aus realen Texten abzuleiten. Wir entwickeln einen Benchmark, der auf realer akademischer Literatur basiert und Texte unterschiedlicher Länge, Komplexität der Beziehungen (unterschiedliche Explizitheitsgrade, Anzahl von Ereignissen und kausalen Zusammenhängen) sowie verschiedener Domänen und Subdomänen umfasst. Unseres Wissens ist dies der erste reale Datensatz für diese Aufgabe. Experimente mit state-of-the-art LLMs, die auf unserem vorgeschlagenen Benchmark evaluiert wurden, zeigen erhebliche Herausforderungen, wobei das beste Modell einen durchschnittlichen F1-Score von nur 0,477 erreicht. Analysen offenbaren häufige Schwierigkeiten: Probleme mit implizit formulierten Informationen, bei der Unterscheidung relevanter kausaler Faktoren von kontextuellen Details sowie bei der Verbindung kausal relevanter Informationen, die über längere Textpassagen verteilt sind. Durch die systematische Charakterisierung dieser Defizite bietet unser Benchmark gezielte Einblicke für weitere Forschungen zur Verbesserung des kausalen Denkens von LLMs.
Test-Time Scaling (TTS), das die dynamische Zuweisung von Rechenleistung während der Inferenz beinhaltet, bietet einen vielversprechenden Ansatz, um die Argumentationsfähigkeit großer Sprachmodelle zu verbessern. Obwohl bestehende TTS-Methoden gut funktionieren, verlassen sie sich oft auf lange Dekodierungspfade oder erfordern die Generierung einer großen Anzahl von Stichproben, was den Token-Verbrauch und die Inferenzlatenz erhöht. Wir beobachten die überraschende Tatsache, dass bei Argumentationsaufgaben kürzere Spuren viel wahrscheinlicher korrekt sind als längere. Motiviert durch diese Erkenntnis führen wir First Finish Search (FFS) ein, eine trainingsfreie parallele Dekodierungsstrategie, die n unabhängige Stichproben startet und zurückgibt, sobald eine davon abgeschlossen ist. Wir evaluieren FFS neben einfacher Dekodierung, Beam Search, Mehrheitsabstimmung und Budget Forcing an vier Argumentationsmodellen (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B und Phi-4-Reasoning-Plus) und über vier Datensätze hinweg (AIME24, AIME25-I, AIME25-II und GPQA Diamond). Mit DeepSeek-R1 erreicht FFS eine Genauigkeit von 82,23 % auf den AIME-Datensätzen, eine Verbesserung von 15 % gegenüber der eigenständigen Genauigkeit von DeepSeek-R1, was nahezu der Leistung von OpenAI's o4-mini entspricht. Unsere theoretische Analyse erklärt, warum das Anhalten bei der kürzesten Spur wahrscheinlich eine korrekte Antwort liefert und identifiziert die Bedingungen, unter denen ein vorzeitiges Anhalten suboptimal sein kann. Die Eleganz und Einfachheit von FFS demonstrieren, dass unkomplizierte TTS-Strategien bemerkenswert gut abschneiden können und das ungenutzte Potenzial einfacher Ansätze zur Inferenzzeit aufzeigen.
Obwohl große Vision-Language-Modelle (VLMs) bemerkenswerte Leistungen in einer Vielzahl von multimodalen Aufgaben gezeigt haben, bleiben ihre wahren Denkfähigkeiten bei menschlichen IQ-Tests weitgehend unerforscht. Um die Forschung zur fluiden Intelligenz von VLMs voranzutreiben, führen wir **IQBench** ein, einen neuen Benchmark, der entwickelt wurde, um VLMs anhand standardisierter visueller IQ-Tests zu bewerten. Wir konzentrieren uns auf die Bewertung der Denkfähigkeiten von VLMs, die unserer Ansicht nach wichtiger sind als die Genauigkeit der endgültigen Vorhersage. **Unser Benchmark ist visuell zentriert und minimiert die Abhängigkeit von unnötigem Textinhalt**, wodurch Modelle dazu angeregt werden, Antworten hauptsächlich aus bildbasierten Informationen abzuleiten, anstatt aus gelerntem Textwissen. Zu diesem Zweck haben wir manuell 500 visuelle IQ-Fragen gesammelt und annotiert, um **unbeabsichtigten Datenabfluss während des Trainings zu verhindern**. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Genauigkeit der endgültigen Antwort konzentrieren, bewerten wir die Denkfähigkeit der Modelle, indem wir ihre Erklärungen und die Muster, die zur Lösung jedes Problems verwendet werden, zusammen mit der Genauigkeit der endgültigen Vorhersage und der menschlichen Bewertung analysieren. Unsere Experimente zeigen, dass es erhebliche Leistungsunterschiede zwischen den Aufgaben gibt, wobei Modelle wie `o4-mini`, `gemini-2.5-flash` und `claude-3.7-sonnet` die höchsten durchschnittlichen Genauigkeiten von 0,615, 0,578 bzw. 0,548 erreichen. Allerdings kämpfen alle Modelle mit 3D-räumlichen und Anagramm-Denkaufgaben, was erhebliche Einschränkungen in den allgemeinen Denkfähigkeiten aktueller VLMs aufzeigt. In Bezug auf die Denkpunkte erreichten `o4-mini`, `gemini-2.5-flash` und `claude-3.7-sonnet` die höchsten Durchschnittswerte von 0,696, 0,586 bzw. 0,516. Diese Ergebnisse verdeutlichen Inkonsistenzen zwischen den Denkprozessen der Modelle und ihren endgültigen Antworten und unterstreichen die Bedeutung der Bewertung der Genauigkeit des Denkens zusätzlich zu den endgültigen Vorhersagen.