Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das bemerkenswerte Wachstum der Fähigkeiten großer Sprachmodelle (LLMs) hat die Erforschung von Multi-Agenten-Systemen vorangetrieben, wobei Debattenrahmen als vielversprechender Ansatz für verbesserte Problemlösungen hervorgegangen sind. Diese Multi-Agenten-Debatten (MAD)-Ansätze, bei denen Agenten gemeinsam Argumente präsentieren, kritisieren und verfeinern, bieten potenziell verbessertes Denkvermögen, Robustheit und vielfältige Perspektiven im Vergleich zu monolithischen Modellen. Trotz früherer Studien, die MAD nutzten, bleibt ein systematisches Verständnis seiner Effektivität im Vergleich zu Einzelagentenmethoden, insbesondere unter variierenden Bedingungen, schwer fassbar. Diese Arbeit zielt darauf ab, diese Lücke zu schließen, indem MAD als eine Testzeit-Rechenskalierungstechnik konzeptualisiert wird, die sich durch kollaborative Verfeinerung und vielfältige Erkundungsfähigkeiten auszeichnet. Wir führen eine umfassende empirische Untersuchung durch, in der MAD mit starken Einzelagenten-Testzeit-Skalierungsbaselines bei mathematischen Denkaufgaben und sicherheitsrelevanten Aufgaben verglichen wird. Unsere Studie untersucht systematisch den Einfluss von Aufgabenkomplexität, Modellgröße und Agentenvielfalt auf die Leistung von MAD. Wichtige Erkenntnisse zeigen, dass MAD bei mathematischen Denkaufgaben nur begrenzte Vorteile gegenüber der Einzelagenten-Skalierung bietet, jedoch mit zunehmender Problemkomplexität und abnehmender Modellfähigkeit effektiver wird, während die Agentenvielfalt wenig Nutzen zeigt. Im Gegensatz dazu kann bei Sicherheitsaufgaben die kollaborative Verfeinerung von MAD die Anfälligkeit erhöhen, aber die Einbindung vielfältiger Agentenkonfigurationen ermöglicht eine schrittweise Reduzierung des Angriffserfolgs durch den kollaborativen Verfeinerungsprozess. Wir glauben, dass unsere Erkenntnisse entscheidende Leitlinien für die zukünftige Entwicklung effektiverer und strategisch eingesetzter MAD-Systeme liefern.
Bestehende Ansätze zur Reasoning-Segmentierung feinabstimmen typischerweise multimodale große Sprachmodelle (MLLMs) unter Verwendung von Bild-Text-Paaren und entsprechenden Maskenlabels. Allerdings zeigen sie eine begrenzte Generalisierungsfähigkeit in Out-of-Distribution-Szenarien ohne einen expliziten Reasoning-Prozess. Obwohl jüngste Bemühungen durch Reinforcement Learning mittels gruppenrelativer Policy-Optimierung (GRPO) die Reasoning-Fähigkeit verbessern, leiden sie oft an Overthinking – der Erzeugung durchweg ausführlicher Reasoning-Ketten unabhängig von der Aufgabenkomplexität. Dies führt zu erhöhten Rechenkosten und begrenzter Kontrolle über die Reasoning-Qualität. Um dieses Problem zu lösen, schlagen wir PixelThink vor, ein einfaches, aber effektives Schema, das extern geschätzte Aufgabenkomplexität und intern gemessene Modellunsicherheit integriert, um die Reasoning-Erzeugung innerhalb eines Reinforcement-Learning-Paradigmas zu regulieren. Das Modell lernt, die Reasoning-Länge entsprechend der Szenenkomplexität und der Vorhersagesicherheit zu komprimieren. Um eine umfassende Bewertung zu unterstützen, führen wir ReasonSeg-Diff ein, einen erweiterten Benchmark mit annotierten Reasoning-Referenzen und Schwierigkeitsbewertungen, sowie eine Reihe von Metriken, die darauf ausgelegt sind, Segmentierungsgenauigkeit, Reasoning-Qualität und Effizienz gemeinsam zu bewerten. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Ansatz sowohl die Reasoning-Effizienz als auch die gesamte Segmentierungsleistung verbessert. Unsere Arbeit leistet einen Beitrag zu neuen Perspektiven für effizientes und interpretierbares multimodales Verständnis. Der Code und das Modell werden öffentlich verfügbar sein.
In dieser Arbeit präsentieren wir die erste Studie, die das Skalieren zur Inferenzzeit bei Tabellenverständnisaufgaben untersucht. Wir entwickeln und evaluieren zwei Post-Training-Strategien, um das Skalieren zur Inferenzzeit zu ermöglichen: Distillation aus Reasoning-Traces von Frontier-Modellen und Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Für die Distillation führen wir einen groß angelegten Datensatz von Reasoning-Traces ein, die von DeepSeek-R1 generiert wurden, und verwenden diesen, um LLMs in das Table-R1-SFT-Modell zu feintunen. Für RLVR schlagen wir aufgaben spezifische verifizierbare Belohnungsfunktionen vor und wenden den GRPO-Algorithmus an, um das Table-R1-Zero-Modell zu erhalten. Wir evaluieren unsere Table-R1-Serienmodelle über verschiedene Tabellenverständnisaufgaben hinweg, darunter Kurzform-QA, Faktenüberprüfung und Freiform-QA. Bemerkenswerterweise erreicht das Table-R1-Zero-Modell die Leistung von GPT-4.1 und DeepSeek-R1 oder übertrifft sie, obwohl es nur ein 7B-Parameter-LLM verwendet. Es zeigt auch eine starke Generalisierung auf Out-of-Domain-Datensätze. Umfangreiche Ablations- und qualitative Analysen offenbaren die Vorteile des Instruction Tunings, der Modellarchitekturentscheidungen und der übergreifenden Aufgabenverallgemeinerung sowie das Auftreten essenzieller Tabellenverständnisfähigkeiten während des RL-Trainings.
Aktuelle Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben die Leistung bei 2D-Visualisierungsaufgaben erheblich verbessert. Die Verbesserung ihrer räumlichen Intelligenz bleibt jedoch eine Herausforderung. Bestehende 3D-MLLMs stützen sich stets auf zusätzliche 3D- oder 2,5D-Daten, um räumliches Bewusstsein zu integrieren, was ihre Nützlichkeit in Szenarien mit ausschließlich 2D-Eingaben wie Bildern oder Videos einschränkt. In diesem Artikel stellen wir Spatial-MLLM vor, ein neuartiges Framework für visuell basiertes räumliches Schließen ausschließlich aus 2D-Beobachtungen. Im Gegensatz zu herkömmlichen Video-MLLMs, die auf CLIP-basierten visuellen Encodern angewiesen sind, die für semantisches Verständnis optimiert sind, besteht unser Schlüsselansatz darin, die starke Strukturpräferenz aus dem Feed-Forward-Modell der visuellen Geometrie freizusetzen. Konkret schlagen wir eine Dual-Encoder-Architektur vor: einen vortrainierten 2D-visuellen Encoder zur Extraktion semantischer Merkmale und einen räumlichen Encoder, der aus dem Backbone des visuellen Geometriemodells initialisiert wird, um 3D-Strukturmerkmale zu extrahieren. Ein Connector integriert dann beide Merkmale in einheitliche visuelle Tokens für ein verbessertes räumliches Verständnis. Darüber hinaus schlagen wir eine raumbewusste Frame-Sampling-Strategie zur Inferenzzeit vor, die die räumlich informativen Frames einer Videosequenz auswählt und sicherstellt, dass sich das Modell selbst bei begrenzter Token-Länge auf die für das räumliche Schließen entscheidenden Frames konzentriert. Neben Architekturverbesserungen erstellen wir den Spatial-MLLM-120k-Datensatz und trainieren das Modell darauf mittels überwachtem Fine-Tuning und GRPO. Umfangreiche Experimente auf verschiedenen realen Datensätzen zeigen, dass unser Spatial-MLLM in einer Vielzahl von visuell basierten räumlichen Verständnis- und Schließaufgaben state-of-the-art-Leistungen erzielt. Projektseite: https://diankun-wu.github.io/Spatial-MLLM/.
Aktuelle Studien zur Nachschulung großer Sprachmodelle (LLMs) für das logische Denken durch Verstärkungslernen (Reinforcement Learning, RL) konzentrieren sich typischerweise auf Aufgaben, die präzise überprüft und belohnt werden können, wie das Lösen von Matheproblemen. Im Gegensatz dazu untersucht unsere Forschung die Auswirkungen von Rauschen in den Belohnungen, eine praxisrelevante Überlegung für reale Szenarien, die die Nachschulung von LLMs mithilfe von Belohnungsmodellen betreffen. Wir fanden heraus, dass LLMs eine starke Robustheit gegenüber erheblichem Rauschen in den Belohnungen zeigen. Beispielsweise ermöglicht das manuelle Umkehren von 40 % der Ausgaben der Belohnungsfunktion in Matheaufgaben einem Qwen-2.5-7B-Modell dennoch eine schnelle Konvergenz, wodurch sich seine Leistung bei Matheaufgaben von 5 % auf 72 % verbessert, verglichen mit der 75 % Genauigkeit eines Modells, das mit rauschfreien Belohnungen trainiert wurde. Überraschenderweise erreichte das Modell durch die ausschließliche Belohnung des Auftretens von Schlüsselphrasen des logischen Denkens (sogenannte Reasoning Pattern Reward, RPR), wie „zuerst muss ich“ – ohne die Korrektheit der Antworten zu überprüfen – eine Spitzenleistung in nachgelagerten Aufgaben (über 70 % Genauigkeit für Qwen-2.5-7B), die mit Modellen vergleichbar ist, die mit strenger Korrektheitsüberprüfung und präzisen Belohnungen trainiert wurden. In Anerkennung der Bedeutung des Denkprozesses gegenüber den Endergebnissen kombinierten wir RPR mit rauschbehafteten Belohnungsmodellen. RPR half dabei, die rauschbehafteten Belohnungsmodelle zu kalibrieren, potenzielle falsche Negative zu reduzieren und die Leistung des LLMs bei offenen Aufgaben zu verbessern. Diese Erkenntnisse unterstreichen die Bedeutung der Verbesserung der grundlegenden Fähigkeiten von Modellen während der Vorausbildungsphase und liefern gleichzeitig Einblicke für die Weiterentwicklung von Nachschulungstechniken. Unser Code und unsere Skripte sind unter https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason verfügbar.
MLLMs (Multimodale Large Language Models) wurden in letzter Zeit intensiv für die Beantwortung von Fragen zu Videos untersucht. Die meisten bestehenden Bewertungen konzentrieren sich jedoch auf natürliche Videos und vernachlässigen synthetische Videos, wie z. B. KI-generierte Inhalte (AIGC). Gleichzeitig stützen sich einige Arbeiten zur Videogenerierung auf MLLMs, um die Qualität der generierten Videos zu bewerten, aber die Fähigkeiten von MLLMs zur Interpretation von AIGC-Videos sind weitgehend unerforscht. Um dies zu adressieren, schlagen wir einen neuen Benchmark, VF-Eval, vor, der vier Aufgaben einführt: Kohärenzvalidierung, Fehlerbewusstsein, Fehlertyp-Erkennung und Bewertung der Schlussfolgerungsfähigkeit, um die Fähigkeiten von MLLMs in Bezug auf AIGC-Videos umfassend zu bewerten. Wir evaluieren 13 führende MLLMs auf VF-Eval und stellen fest, dass selbst das leistungsstärkste Modell, GPT-4.1, Schwierigkeiten hat, durchgängig gute Leistungen in allen Aufgaben zu erzielen. Dies unterstreicht die anspruchsvolle Natur unseres Benchmarks. Zusätzlich führen wir ein Experiment, RePrompt, durch, um die praktischen Anwendungen von VF-Eval bei der Verbesserung der Videogenerierung zu untersuchen. Dies zeigt, dass eine stärkere Ausrichtung von MLLMs an menschlichem Feedback die Videogenerierung verbessern kann.
Die rasante Weiterentwicklung großer Vision-Language-Modelle (VLMs) hat die Entwicklung rein visueller GUI-Agenten vorangetrieben, die in der Lage sind, grafische Benutzeroberflächen (GUIs) wahrzunehmen und zu bedienen, um Benutzeranweisungen autonom auszuführen. Bisherige Ansätze verwenden jedoch meist ein Offline-Lernframework, das zwei zentrale Einschränkungen aufweist: (1) eine starke Abhängigkeit von hochwertigen manuellen Annotationen für die Elementlokalisierung und Aktionsüberwachung sowie (2) eine begrenzte Anpassungsfähigkeit an dynamische und interaktive Umgebungen. Um diese Einschränkungen zu überwinden, schlagen wir ZeroGUI vor, ein skalierbares Online-Lernframework zur Automatisierung des Trainings von GUI-Agenten ohne menschlichen Aufwand. Konkret integriert ZeroGUI (i) eine VLM-basierte automatische Aufgaben generierung, um vielfältige Trainingsziele aus dem aktuellen Umgebungszustand abzuleiten, (ii) eine VLM-basierte automatische Belohnungs schätzung, um den Aufgaben erfolg ohne manuell erstellte Bewertungsfunktionen zu bewerten, und (iii) zweistufiges Online-Reinforcement-Learning, um kontinuierlich mit GUI-Umgebungen zu interagieren und daraus zu lernen. Experimente mit zwei fortschrittlichen GUI-Agenten (UI-TARS und Aguvis) zeigen, dass ZeroGUI die Leistung in den Umgebungen OSWorld und AndroidLab erheblich steigert. Der Code ist unter https://github.com/OpenGVLab/ZeroGUI verfügbar.
Diffusion-basierte große Sprachmodelle (Diffusion LLMs) haben vielversprechende Ansätze für nicht-autoregressive Textgenerierung mit parallelen Dekodierungsfähigkeiten gezeigt. Allerdings bleibt die praktische Inferenzgeschwindigkeit von Open-Source-Diffusion-LLMs oft hinter autoregressiven Modellen zurück, was auf das Fehlen eines Key-Value (KV)-Caches und Qualitätseinbußen bei der gleichzeitigen Dekodierung mehrerer Tokens zurückzuführen ist. Um diese Lücke zu schließen, führen wir einen neuartigen blockweisen approximativen KV-Cache-Mechanismus ein, der speziell für bidirektionale Diffusionsmodelle entwickelt wurde und eine Wiederverwendung des Caches mit vernachlässigbarem Leistungsabfall ermöglicht. Zudem identifizieren wir die Ursache für die Qualitätsminderung bei der parallelen Dekodierung in der Störung von Token-Abhängigkeiten unter der Annahme bedingter Unabhängigkeit. Um dies zu beheben, schlagen wir eine konfidenzbasierte parallele Dekodierungsstrategie vor, die selektiv Tokens dekodiert, die einen Konfidenzschwellenwert überschreiten, wodurch Abhängigkeitsverletzungen gemildert und die Generierungsqualität erhalten bleibt. Experimentelle Ergebnisse an LLaDA- und Dream-Modellen über mehrere LLM-Benchmarks zeigen eine bis zu 27,6-fache Steigerung des Durchsatzes bei minimalem Genauigkeitsverlust, wodurch die Leistungslücke zu autoregressiven Modellen geschlossen und der Weg für den praktischen Einsatz von Diffusion-LLMs geebnet wird.
Aktuelle Studien haben gezeigt, dass lange Ketten von Denkschritten (Chain-of-Thought, CoT) die Leistung großer Sprachmodelle (Large Language Models, LLMs) bei komplexen Aufgaben erheblich verbessern können. Dieser Vorteil konnte jedoch noch nicht im Bereich des Videoverständnisses nachgewiesen werden, da die meisten bestehenden Benchmarks die erforderliche Tiefe des Denkprozesses vermissen lassen, um die Vorteile erweiterter CoT-Ketten zu demonstrieren. Obwohl neuere Bemühungen Benchmarks für das Videoverständnis vorgeschlagen haben, sind die Aufgaben oft wissensbasiert und stützen sich nicht stark auf visuelle Inhalte. Um diese Lücke zu schließen, stellen wir VideoReasonBench vor, einen Benchmark, der darauf abzielt, visuell zentriertes, komplexes Videoverständnis zu bewerten. Um visuelle Vielfalt und hohe Denkkomplexität sicherzustellen, zeigt jedes Video in VideoReasonBench eine Abfolge fein abgestimmter Operationen auf einem latenten Zustand, der nur in Teilen des Videos sichtbar ist. Die Fragen bewerten drei ansteigende Ebenen des Videoverständnisses: das Abrufen beobachteter visueller Informationen, das Erschließen des Inhalts latenter Zustände und das Vorhersagen von Informationen, die über das Video hinausgehen. In einer solchen Aufgabenstellung müssen Modelle präzise mehrere Operationen im Video abrufen und schrittweise Denkprozesse durchführen, um korrekte Endantworten auf diese Fragen zu erhalten. Mit VideoReasonBench bewerten wir umfassend 18 state-of-the-art multimodale LLMs (MLLMs) und stellen fest, dass die meisten bei komplexem Videoverständnis schlecht abschneiden, z.B. erreicht GPT-4o nur eine Genauigkeit von 6,9 %, während das denkverstärkte Gemini-2.5-Pro mit 56,0 % Genauigkeit deutlich besser abschneidet. Unsere Untersuchungen zur „Testzeit-Skalierung“ zeigen weiterhin, dass ein erweiterter Denkbudget, der auf bestehenden Video-Benchmarks keinen oder nur minimalen Nutzen bietet, entscheidend für die Verbesserung der Leistung auf VideoReasonBench ist.
Computer-Aided Design (CAD) spielt eine zentrale Rolle in der Ingenieurwissenschaft und Fertigung, da es die Erstellung präziser und bearbeitbarer 3D-Modelle ermöglicht. Die Verwendung verschiedener Sensordaten oder benutzerbereitgestellter Daten als Eingaben für die CAD-Rekonstruktion kann den Zugang zu Designanwendungen demokratisieren. Bestehende Methoden konzentrieren sich jedoch typischerweise auf eine einzelne Eingabemodalität, wie Punktwolken, Bilder oder Text, was ihre Allgemeingültigkeit und Robustheit einschränkt. Unter Nutzung der jüngsten Fortschritte in Vision-Language-Modellen (VLM) schlagen wir ein multimodales CAD-Rekonstruktionsmodell vor, das alle drei Eingabemodalitäten gleichzeitig verarbeitet. Inspiriert von den Trainingsparadigmen großer Sprachmodelle (LLM) verwenden wir eine zweistufige Pipeline: überwachtes Feinabstimmen (SFT) auf groß angelegten, prozedural generierten Daten, gefolgt von einem Feinabstimmen mittels Reinforcement Learning (RL) unter Verwendung von programmatisch erhaltener Online-Rückmeldung. Darüber hinaus sind wir die ersten, die RL-Feinabstimmen von LLMs für CAD-Aufgaben untersuchen und zeigen, dass Online-RL-Algorithmen wie Group Relative Preference Optimization (GRPO) Offline-Alternativen übertreffen. Im DeepCAD-Benchmark übertrifft unser SFT-Modell bestehende unimodale Ansätze in allen drei Eingabemodalitäten gleichzeitig. Noch wichtiger ist, dass cadrille nach dem RL-Feinabstimmen neue State-of-the-Art-Ergebnisse in drei anspruchsvollen Datensätzen, einschließlich eines realen Datensatzes, erzielt.
Dieses Papier stellt Diffusion via Autoregressive Models (D-AR) vor, ein neues Paradigma, das den Bilddiffusionsprozess als einen einfachen autoregressiven Prozess im Standard-Stil der nächsten Token-Vorhersage umformuliert. Wir beginnen mit der Gestaltung des Tokenizers, der Bilder in Sequenzen diskreter Tokens umwandelt, wobei Tokens an verschiedenen Positionen in unterschiedliche Diffusionsentrauschungsschritte im Pixelraum decodiert werden können. Dank der Diffusionseigenschaften folgen diese Tokens auf natürliche Weise einer grob-zu-fein-Reihenfolge, was sich direkt für die autoregressive Modellierung eignet. Daher wenden wir die Standardmethode der nächsten Token-Vorhersage auf diese Tokens an, ohne die zugrunde liegenden Designs (sei es kausale Masken oder Trainings-/Inferenzstrategien) zu verändern, und eine solche sequenzielle autoregressive Token-Generierung spiegelt direkt den Diffusionsprozess im Bildraum wider. Das bedeutet, sobald das autoregressive Modell eine Zunahme von Tokens generiert, können wir diese Tokens direkt in den entsprechenden Diffusionsentrauschungsschritt in Streaming-Manier decodieren. Unsere Pipeline offenbart auf natürliche Weise mehrere interessante Eigenschaften, zum Beispiel unterstützt sie konsistente Vorschauen, wenn nur eine Teilmenge von Tokens generiert wird, und ermöglicht eine Null-Shot-Layout-gesteuerte Synthese. Beim Standard-ImageNet-Benchmark erreicht unsere Methode einen FID von 2,09 mit einem 775M Llama-Backbone und 256 diskreten Tokens. Wir hoffen, dass unsere Arbeit zukünftige Forschungen zu einheitlichen autoregressiven Architekturen der visuellen Synthese, insbesondere mit großen Sprachmodellen, inspirieren kann. Code und Modelle werden unter https://github.com/showlab/D-AR verfügbar sein.
Wir stellen AnySplat vor, ein Feedforward-Netzwerk für die Synthese neuer Ansichten aus unkalibrierten Bildsammlungen. Im Gegensatz zu traditionellen Neuronalen Rendering-Pipelines, die bekannte Kameraposen und eine Optimierung pro Szene erfordern, oder zu neueren Feedforward-Methoden, die unter der Rechenlast dichter Ansichten scheitern, sagt unser Modell alles in einem Durchgang vorher. Ein einziger Vorwärtsdurchlauf liefert eine Menge von 3D-Gauß-Primitiven, die sowohl die Szenengeometrie als auch das Erscheinungsbild kodieren, sowie die entsprechenden Kameraintrinsiken und -extrinsiken für jedes Eingabebild. Dieses einheitliche Design skaliert mühelos auf beiläufig aufgenommene, multiview-Datensätze ohne jegliche Posierungsannotationen. In umfangreichen Zero-Shot-Evaluierungen erreicht AnySplat die Qualität von posierungsbewussten Baselines sowohl in spärlichen als auch in dichten Ansichtsszenarien und übertrifft dabei bestehende posierungsfreie Ansätze. Darüber hinaus reduziert es die Rendering-Latenz im Vergleich zu optimierungsbasierten neuronalen Feldern erheblich und bringt die Echtzeit-Synthese neuer Ansichten für ungezwungene Aufnahmeszenarien in greifbare Nähe. Projektseite: https://city-super.github.io/anysplat/
Kürzlich entwickelte große Reasoning-Modelle (LRMs) zeigen eine beeindruckende Leistung bei der Lösung komplexer Aufgaben mit langen Chain-of-Thought (CoT)-Reasoning-Fähigkeiten. Da diese LRMs meist durch Post-Training auf formalen Reasoning-Aufgaben entwickelt werden, bleibt unklar und umstritten, ob sie ihre Reasoning-Fähigkeit verallgemeinern können, um Halluzinationen bei faktenbasierten Aufgaben zu reduzieren. Beispielsweise berichtet DeepSeek-R1 über eine verbesserte Leistung bei SimpleQA, einem Benchmark für faktenbasierte Aufgaben, während OpenAI-o3 sogar stärkere Halluzinationen feststellt. Diese Diskrepanz wirft folgende Forschungsfrage auf: Sind Reasoning-Modelle anfälliger für Halluzinationen? Dieses Papier geht dieser Frage aus drei Perspektiven nach. (1) Zunächst führen wir eine ganzheitliche Bewertung der Halluzinationen in LRMs durch. Unsere Analyse zeigt, dass LRMs, die einen vollständigen Post-Training-Pipeline mit Cold-Start-Supervised-Fine-Tuning (SFT) und verifizierbarem Belohnungs-RL durchlaufen, ihre Halluzinationen allgemein verringern. Im Gegensatz dazu führen sowohl die alleinige Destillation als auch RL-Training ohne Cold-Start-Fine-Tuning zu subtileren Halluzinationen. (2) Um zu untersuchen, warum unterschiedliche Post-Training-Pipelines die Auswirkungen auf Halluzinationen in LRMs verändern, führen wir eine Verhaltensanalyse durch. Wir charakterisieren zwei kritische kognitive Verhaltensweisen, die die Faktentreue eines LRMs direkt beeinflussen: Fehlerwiederholung, bei der oberflächliche Reasoning-Versuche wiederholt der gleichen zugrunde liegenden fehlerhaften Logik folgen, und Denken-Antwort-Diskrepanz, bei der die endgültige Antwort nicht treu mit dem vorherigen CoT-Prozess übereinstimmt. (3) Darüber hinaus untersuchen wir den Mechanismus hinter den Halluzinationen von LRMs aus der Perspektive der Modellunsicherheit. Wir stellen fest, dass eine erhöhte Halluzination bei LRMs meist mit der Fehlausrichtung zwischen Modellunsicherheit und faktischer Genauigkeit verbunden ist. Unsere Arbeit bietet ein erstes Verständnis der Halluzinationen in LRMs.
Sprachmodelle (LMs) schneiden bei standardisierten Programmierbenchmarks gut ab, haben jedoch Schwierigkeiten mit realen Softwareentwicklungsaufgaben wie der Lösung von GitHub-Issues in SWE-Bench, insbesondere wenn die Modellparameter weniger als 100B betragen. Obwohl kleinere Modelle in der Praxis aufgrund ihrer geringeren Rechenkosten bevorzugt werden, bleibt die Verbesserung ihrer Leistung eine Herausforderung. Bestehende Ansätze stützen sich hauptsächlich auf überwachtes Feinabstimmen (SFT) mit hochwertigen Daten, die in großem Maßstab teuer zu kuratieren sind. Eine Alternative ist das Skalieren zur Testzeit: Es werden mehrere Ausgaben generiert, mit einem Verifizierer bewertet und die beste ausgewählt. Obwohl effektiv, erfordert diese Strategie oft übermäßiges Sampling und kostspielige Bewertungen, was ihre praktische Anwendung einschränkt. Wir schlagen Evolutionäres Skalieren zur Testzeit (EvoScale) vor, eine sample-effiziente Methode, die die Generierung als evolutionären Prozess behandelt. Durch iteratives Verfeinern der Ausgaben über Selektion und Mutation verschiebt EvoScale die Ausgabeverteilung in Richtung höher bewerteter Regionen und reduziert die Anzahl der benötigten Samples, um korrekte Lösungen zu finden. Um den Overhead durch wiederholtes Sampling und Selektion zu verringern, trainieren wir das Modell, sich selbst durch Verstärkungslernen (RL) weiterzuentwickeln. Anstatt sich zur Inferenzzeit auf externe Verifizierer zu verlassen, lernt das Modell, die Bewertungen seiner eigenen Generationen über Iterationen hinweg selbst zu verbessern. Bei der Auswertung auf SWE-Bench-Verified ermöglicht EvoScale unserem 32B-Modell, Satori-SWE-32B, die Leistung von Modellen mit über 100B Parametern zu erreichen oder zu übertreffen, während nur wenige Samples verwendet werden. Code, Daten und Modelle werden vollständig quelloffen sein.
Wir stellen LoRAShop vor, das erste Framework für die Bearbeitung von Bildern mit mehreren Konzepten mithilfe von LoRA-Modellen. LoRAShop basiert auf einer zentralen Beobachtung über die Merkmalsinteraktionsmuster innerhalb von Flux-ähnlichen Diffusionstransformern: Konzeptspezifische Transformer-Merkmale aktivieren früh im Denoising-Prozess räumlich kohärente Regionen. Wir nutzen diese Beobachtung, um in einem vorherigen Vorwärtsdurchlauf eine entkoppelte latente Maske für jedes Konzept abzuleiten und die entsprechenden LoRA-Gewichte nur innerhalb der Regionen zu mischen, die die zu personalisierenden Konzepte begrenzen. Die resultierenden Bearbeitungen integrieren mehrere Subjekte oder Stile nahtlos in die ursprüngliche Szene, während der globale Kontext, die Beleuchtung und feine Details erhalten bleiben. Unsere Experimente zeigen, dass LoRAShop im Vergleich zu Baseline-Methoden eine bessere Identitätsbewahrung bietet. Durch den Verzicht auf Neutraining und externe Einschränkungen verwandelt LoRAShop personalisierte Diffusionsmodelle in ein praktisches „Photoshop-mit-LoRAs“-Werkzeug und eröffnet neue Wege für kompositionelle visuelle Geschichtenerzählung und schnelle kreative Iteration.
Transformers haben sich als die beliebtesten Backbones in der Sequenzmodellierung etabliert, vor allem aufgrund ihrer Effektivität bei In-Context-Retrieval-Aufgaben und ihrer Fähigkeit, im großen Maßstab zu lernen. Ihre quadratische Speicher- und Zeitkomplexität begrenzt jedoch ihre Anwendbarkeit bei längeren Sequenzen und hat Forscher dazu motiviert, effektive alternative Architekturen wie moderne rekurrente neuronale Netze (auch bekannt als Long-Term Recurrent Memory Module) zu erforschen. Trotz ihres jüngsten Erfolgs in verschiedenen Downstream-Aufgaben, haben sie Schwierigkeiten bei Aufgaben, die ein langes Kontextverständnis und eine Extrapolation auf längere Sequenzen erfordern. Wir beobachten, dass diese Schwächen aus drei getrennten Aspekten in ihrem Design resultieren: (1) begrenzte Speicherkapazität, die durch die Architektur des Speichers und die Feature-Mapping des Eingabesignals beschränkt ist; (2) der Online-Charakter der Aktualisierung, d.h. die Optimierung des Speichers nur in Bezug auf die letzte Eingabe; und (3) weniger ausdrucksstarke Verwaltung ihres festen Speichers. Um alle drei Aspekte zu verbessern, präsentieren wir ATLAS, ein Long-Term Memory Module mit hoher Kapazität, das lernt, den Kontext zu speichern, indem es den Speicher basierend auf den aktuellen und vergangenen Tokens optimiert und so den Online-Charakter von Long-Term Memory Modellen überwindet. Aufbauend auf dieser Erkenntnis stellen wir eine neue Familie von Transformer-ähnlichen Architekturen vor, genannt DeepTransformers, die strikte Verallgemeinerungen der ursprünglichen Transformer-Architektur darstellen. Unsere experimentellen Ergebnisse in den Bereichen Sprachmodellierung, Common-Sense Reasoning, Recall-intensive und Long-Context-Verständnis-Aufgaben zeigen, dass ATLAS die Leistung von Transformers und aktuellen linearen rekurrenten Modellen übertrifft. ATLAS verbessert weiterhin die Long-Context-Leistung von Titans und erreicht eine +80\% Genauigkeit bei einer Kontextlänge von 10M im BABILong Benchmark.
Einheitliche multimodale Large Language Models wie Show-o und Janus haben starke Leistungen sowohl bei Generierungs- als auch bei Verständnisaufgaben erzielt. Diese Modelle basieren jedoch typischerweise auf groß angelegten Datensätzen und erfordern erhebliche Rechenleistung während der Vortrainingsphase. Darüber hinaus wurden mehrere Nachtrainingsmethoden vorgeschlagen, die jedoch oft auf externe Daten angewiesen sind oder auf aufgabenspezifische Anpassungen beschränkt sind. In dieser Arbeit stellen wir UniRL vor, einen selbstverbessernden Nachtrainingsansatz. Unser Ansatz ermöglicht es dem Modell, Bilder aus Eingabeaufforderungen zu generieren und diese in jeder Iteration als Trainingsdaten zu verwenden, ohne auf externe Bilddaten angewiesen zu sein. Darüber hinaus ermöglicht er, dass die beiden Aufgaben sich gegenseitig verbessern: die generierten Bilder werden für das Verständnis verwendet, und die Verständnisergebnisse dienen der Überwachung der Generierung. Wir untersuchen Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO), um die Modelle zu optimieren. UniRL bietet drei wesentliche Vorteile: (1) Es werden keine externen Bilddaten benötigt, da alle Trainingsbeispiele während des Trainings vom Modell selbst generiert werden; (2) Es verbessert nicht nur die Leistung einzelner Aufgaben, sondern verringert auch das Ungleichgewicht zwischen Generierung und Verständnis; und (3) Es sind nur wenige zusätzliche Trainingsschritte während der Nachtrainingsphase erforderlich. Wir evaluieren UniRL auf Basis von Show-o und Janus und erreichen einen GenEval-Score von 0,77 für Show-o und 0,65 für Janus. Code und Modelle werden unter https://github.com/showlab/UniRL veröffentlicht.
Die Aufgabe der Problembehebung, bei der ein Modelle Patches zur Behebung von Fehlern in der Praxis generiert, hat sich als entscheidender Maßstab zur Bewertung der Fähigkeiten von großen Sprachmodellen (LLMs) etabliert. Obwohl SWE-bench und seine Varianten in diesem Bereich zum Standard geworden sind, weisen sie wesentliche Einschränkungen auf: Sie wurden seit ihrer Erstveröffentlichung nicht aktualisiert, decken nur eine begrenzte Anzahl von Repositories ab und sind stark von manuellen Anstrengungen bei der Instanzerstellung und Umgebungseinrichtung abhängig. Diese Faktoren behindern die Skalierbarkeit und bergen Risiken von Überanpassung und Datenkontamination. In dieser Arbeit stellen wir SWE-bench-Live vor, einen live-aktualisierbaren Benchmark, der entwickelt wurde, um diese Herausforderungen zu überwinden. Unsere Erstveröffentlichung umfasst 1.319 Aufgaben, die aus realen GitHub-Issues stammen, die seit 2024 erstellt wurden und 93 Repositories abdecken. Jede Aufgabe wird von einem dedizierten Docker-Image begleitet, um eine reproduzierbare Ausführung zu gewährleisten. Kernstück unseres Benchmarks ist \method, eine automatisierte Kuratierungspipeline, die den gesamten Prozess von der Instanzerstellung bis zur Umgebungseinrichtung optimiert, manuelle Engpässe beseitigt und Skalierbarkeit sowie kontinuierliche Aktualisierungen ermöglicht. Wir bewerten eine Reihe von state-of-the-art Agenten-Frameworks und LLMs auf SWE-bench-Live und zeigen eine erhebliche Leistungslücke im Vergleich zu statischen Benchmarks wie SWE-bench, selbst unter kontrollierten Bewertungsbedingungen. Um diese Diskrepanz besser zu verstehen, führen wir detaillierte Analysen in Bezug auf die Herkunft der Repositories, die Aktualität der Issues und die Schwierigkeit der Aufgaben durch. Durch die Bereitstellung eines aktuellen, vielfältigen und ausführbaren Benchmarks, der auf der Live-Aktivität von Repositories basiert, ermöglicht SWE-bench-Live eine rigorose, kontaminationsresistente Bewertung von LLMs und Agenten in dynamischen, realen Softwareentwicklungsumgebungen.
Sparse Autoencoders (SAEs) haben ein erhebliches Potenzial bei der Interpretation der verborgenen Zustände von Sprachmodellen gezeigt, indem sie diese in interpretierbare latente Richtungen zerlegen. Das Training von SAEs in großem Maßstab bleibt jedoch eine Herausforderung, insbesondere wenn große Wörterbuchgrößen verwendet werden. Während Decoder sparsitätsbewusste Kernel zur Effizienzsteigerung nutzen können, erfordern Encoder weiterhin rechenintensive lineare Operationen mit großen Ausgabedimensionen. Um dies zu adressieren, schlagen wir KronSAE vor, eine neuartige Architektur, die die latente Darstellung durch Kronecker-Produkt-Zerlegung faktorisiert und dadurch den Speicher- und Rechenaufwand drastisch reduziert. Darüber hinaus führen wir mAND ein, eine differenzierbare Aktivierungsfunktion, die die binäre AND-Operation approximiert und die Interpretierbarkeit und Leistung in unserem faktorisierten Framework verbessert.
Präferenzmechanismen wie menschliche Präferenzen, LLM-as-a-Judge (LaaJ) und Belohnungsmodelle sind zentral für die Ausrichtung und Bewertung großer Sprachmodelle (LLMs). Dennoch sind die zugrunde liegenden Konzepte, die diese Präferenzen antreiben, noch weitgehend unverstanden. In dieser Arbeit schlagen wir eine vollautomatisierte Methode zur Generierung lokaler und globaler konzeptbasierter Erklärungen von Präferenzen über mehrere Domänen hinweg vor. Unsere Methode nutzt ein LLM, um Konzepte zu identifizieren, die zwischen ausgewählten und abgelehnten Antworten unterscheiden, und diese mit konzeptbasierten Vektoren darzustellen. Um die Beziehungen zwischen Konzepten und Präferenzen zu modellieren, schlagen wir ein transparentes Hierarchical Multi-Domain Regression-Modell vor, das sowohl domänenübergreifende als auch domänenspezifische Effekte erfasst. Zur Bewertung unserer Methode haben wir einen Datensatz erstellt, der acht anspruchsvolle und diverse Domänen umfasst, und zwölf Mechanismen erklärt. Unsere Methode erzielt eine starke Leistung bei der Präferenzvorhersage, übertrifft die Baselines und bleibt dabei erklärbar. Zusätzlich bewerten wir die Erklärungen in zwei anwendungsgetriebenen Szenarien. Erstens führen Konzepte aus LaaJ-Erklärungen, die die LLM-Ausgaben steuern, zu Antworten, die diese Richter konsequent bevorzugen. Zweitens verbessert die Eingabe von Konzepten, die menschliche Präferenzen erklären, in LaaJs deren Präferenzvorhersagen. Zusammen etabliert unsere Arbeit ein neues Paradigma für Erklärbarkeit im Zeitalter der LLMs.
Visuelle Texte, die in Videos eingebettet sind, tragen reichhaltige semantische Informationen, die sowohl für das ganzheitliche Verständnis von Videos als auch für die feinkörnige Analyse lokaler menschlicher Handlungen entscheidend sind. Allerdings übersehen bestehende Benchmarks für das Videoverständnis weitgehend textuelle Informationen, während OCR-spezifische Benchmarks auf statische Bilder beschränkt sind, was ihre Fähigkeit einschränkt, die Interaktion zwischen Text und dynamischen visuellen Kontexten zu erfassen. Um diese Lücke zu schließen, schlagen wir VidText vor, einen neuen Benchmark, der für eine umfassende und tiefgehende Bewertung des Video-Text-Verständnisses entwickelt wurde. VidText bietet die folgenden Schlüsselmerkmale: 1) Es deckt eine breite Palette realer Szenarien ab und unterstützt mehrsprachige Inhalte, wodurch diverse Umgebungen abgedeckt werden, in denen Video-Text natürlich auftritt. 2) Es führt ein hierarchisches Bewertungsframework mit Video-, Clip- und Instanzebenen-Aufgaben ein, das sowohl die globale Zusammenfassung als auch die lokale Retrieval-Fähigkeit bewertet. 3) Der Benchmark führt auch eine Reihe gepaarter Wahrnehmungs- und Schlussfolgerungsaufgaben ein, die von der visuellen Textwahrnehmung bis zur cross-modalen Schlussfolgerung zwischen textuellen und visuellen Informationen reichen. Umfangreiche Experimente mit 18 state-of-the-art Large Multimodal Models (LMMs) zeigen, dass aktuelle Modelle bei den meisten Aufgaben Schwierigkeiten haben und erheblichen Verbesserungsbedarf aufweisen. Weitere Analysen heben die Auswirkungen sowohl modellintrinsischer Faktoren, wie Eingabeauflösung und OCR-Fähigkeit, als auch externer Faktoren, einschließlich der Nutzung von Zusatzinformationen und Chain-of-Thought-Schlussfolgerungsstrategien, hervor. Wir hoffen, dass VidText die derzeitige Lücke in den Benchmarks für das Videoverständnis schließen und als Grundlage für zukünftige Forschungen zur multimodalen Schlussfolgerung mit Video-Text in dynamischen Umgebungen dienen wird.
Die Entwicklung von Sprachgrundlagenmodellen (Speech Foundation Models, SFMs) wie Whisper und SeamlessM4T hat das Feld der Sprachverarbeitung erheblich vorangebracht. Allerdings stellt deren geschlossene Natur – mit nicht zugänglichen Trainingsdaten und Code – erhebliche Herausforderungen für die Reproduzierbarkeit und faire Bewertung dar. Während andere Domänen durch die Entwicklung vollständig transparenter Modelle, die auf Open-Source (OS)-Code und -Daten trainiert wurden, erhebliche Fortschritte in Richtung Open Science gemacht haben, bleiben ähnliche Bemühungen im Bereich der Sprachverarbeitung begrenzt. Um diese Lücke zu schließen, stellen wir FAMA vor, die erste Familie von Open-Science-SFMs für Englisch und Italienisch, die auf über 150.000 Stunden OS-Sprachdaten trainiert wurde. Darüber hinaus präsentieren wir einen neuen Datensatz, der 16.000 Stunden bereinigter und pseudolabelter Sprachdaten für beide Sprachen enthält. Die Ergebnisse zeigen, dass FAMA eine wettbewerbsfähige Leistung im Vergleich zu bestehenden SFMs erzielt und dabei bis zu 8-mal schneller ist. Alle Artefakte, einschließlich Code, Datensätze und Modelle, werden unter OS-konformen Lizenzen veröffentlicht, um die Offenheit in der Forschung zur Sprachtechnologie zu fördern.
Satzbetonung bezieht sich auf die Hervorhebung bestimmter Wörter innerhalb einer gesprochenen Äußerung, um eine Idee zu betonen oder zu kontrastieren oder um neue Informationen einzuführen. Sie wird oft verwendet, um eine zugrunde liegende Absicht zu implizieren, die nicht explizit ausgedrückt wird. Jüngste Fortschritte bei sprachbewussten Sprachmodellen (Speech-aware Language Models, SLMs) haben die direkte Verarbeitung von Audiodaten ermöglicht, wodurch Modelle die Transkription umgehen und die volle Bandbreite des Sprachsignals nutzen können, um Aufgaben wie gesprochene Fragebeantwortung durchzuführen. Trotz der entscheidenden Rolle der Satzbetonung bei der Gestaltung von Bedeutung und Sprecherabsicht wird sie bei der Bewertung und Entwicklung solcher Modelle weitgehend übersehen. In dieser Arbeit schließen wir diese Lücke, indem wir StressTest vorstellen, einen speziell entwickelten Benchmark, der die Fähigkeit eines Modells bewertet, zwischen Interpretationen gesprochener Sätze basierend auf dem Betonungsmuster zu unterscheiden. Wir bewerten die Leistung mehrerer führender SLMs und stellen fest, dass sie trotz ihrer allgemeinen Fähigkeiten bei solchen Aufgaben schlecht abschneiden. Um diese Einschränkung zu überwinden, schlagen wir eine neuartige Pipeline zur synthetischen Datengenerierung vor und erstellen Stress17k, einen Trainingsdatensatz, der die durch Betonungsvariation implizierte Bedeutungsänderung simuliert. Anschließend zeigen wir empirisch, dass die Optimierung von Modellen mit diesem synthetischen Datensatz gut mit realen Aufnahmen übereinstimmt und eine effektive Feinabstimmung von SLMs ermöglicht. Die Ergebnisse deuten darauf hin, dass unser feinabgestimmtes Modell, StresSLM, bestehende Modelle sowohl bei der Satzbetonungslogik als auch bei der Erkennungsaufgabe deutlich übertrifft. Code, Modelle, Daten und Audio-Beispiele finden Sie unter: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Sicherheitsargumentation ist ein neues Paradigma, bei dem große Sprachmodelle (LLMs) Sicherheitsrichtlinien analysieren, bevor sie Antworten generieren, wodurch Einschränkungen bestehender Sicherheitsmaßnahmen wie übermäßige Ablehnung und Jailbreak-Schwachstellen gemildert werden. Die Implementierung dieses Paradigmas ist jedoch aufgrund des ressourcenintensiven Prozesses der Erstellung hochwertiger, richtlinienbasierter Chain-of-Thought (CoT)-Datensätze eine Herausforderung, während gleichzeitig sichergestellt werden muss, dass die Argumentation präzise bleibt und frei von Halluzinationen oder Richtlinienkonflikten ist. Um dies zu bewältigen, schlagen wir AIDSAFE vor: Agentic Iterative Deliberation for Safety Reasoning, ein neuartiges Datengenerierungsverfahren, das mehrstufige Deliberation nutzt, um die Argumentation zu Sicherheitsrichtlinien iterativ zu erweitern. Eine Datenverfeinerungsstufe in AIDSAFE stellt hochwertige Ergebnisse sicher, indem repetitive, redundante und trügerische Gedanken eliminiert werden. Die von AIDSAFE generierten CoTs bieten eine solide Grundlage für das überwachte Feinabstimmen (SFT) im Rahmen des Sicherheitstrainings. Zusätzlich führen wir, um den Bedarf an Präferenzdaten in Ausrichtungsphasen wie dem DPO-Training zu adressieren, ein ergänzendes Verfahren ein, das Glaubensverstärkung nutzt, um eindeutig ausgewählte und abgelehnte CoT-Beispiele zu erstellen. Unsere Auswertungen zeigen, dass die von AIDSAFE generierten CoTs eine überlegene Richtlinientreue und Argumentationsqualität erreichen. Folglich demonstrieren wir, dass das Feinabstimmen von Open-Source-LLMs auf diesen CoTs die Sicherheitsverallgemeinerung und Jailbreak-Robustheit signifikant verbessern kann, während eine akzeptable Nutzbarkeit und Genauigkeit bei der übermäßigen Ablehnung erhalten bleibt. Die von AIDSAFE generierten CoT-Datensätze sind hier verfügbar: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
Sequenzmodelle wie Transformer benötigen Eingaben, die als eindimensionale Sequenzen dargestellt werden. In der Bildverarbeitung erfolgt dies typischerweise durch das Abflachen von Bildern in einer festen Reihenfolge (Raster-Scan). Während die vollständige Selbstaufmerksamkeit permutationsäquivariant ist, verlassen sich moderne Transformer für lange Sequenzen zunehmend auf architektonische Approximationen, die diese Invarianz brechen und eine Empfindlichkeit gegenüber der Reihenfolge der Bildausschnitte (Patches) einführen. Wir zeigen, dass die Reihenfolge der Patches in solchen Kontexten die Modellleistung erheblich beeinflusst, wobei einfache Alternativen wie die Spaltenreihenfolge oder Hilbert-Kurven deutliche Genauigkeitsverschiebungen bewirken. Motiviert durch diese Beobachtung schlagen wir REOrder vor, ein zweistufiges Framework zur Entdeckung von aufgabenoptimalen Patch-Reihenfolgen. Zunächst leiten wir ein informationstheoretisches Prior ab, indem wir die Komprimierbarkeit verschiedener Patch-Sequenzen bewerten. Anschließend lernen wir eine Policy über Permutationen, indem wir eine Plackett-Luce-Policy mithilfe von REINFORCE optimieren. Dieser Ansatz ermöglicht effizientes Lernen in einem kombinatorischen Permutationsraum. REOrder verbessert die Top-1-Genauigkeit gegenüber der Reihenfolge im Raster-Scan auf ImageNet-1K um bis zu 3,01 % und auf der Functional Map of the World um 13,35 %.
Theorem Proving dient als wichtiger Testfall zur Bewertung komplexer Schlussfolgerungsfähigkeiten in großen Sprachmodellen (LLMs). Traditionelle Ansätze des automatisierten Theorem Beweisens (ATP) stützen sich jedoch stark auf formale Beweissysteme, die sich nur schlecht mit den Stärken von LLMs deckt, die aus informellem, natürlichem Sprachwissen während des Vortrainings gewonnen werden. In dieser Arbeit schlagen wir DeepTheorem vor, ein umfassendes Framework für informelles Theorem Beweisen, das natürliche Sprache nutzt, um das mathematische Denken von LLMs zu verbessern. DeepTheorem umfasst einen groß angelegten Benchmark-Datensatz, bestehend aus 121.000 hochwertigen, IMO-Level informellen Theoremen und Beweisen aus verschiedenen mathematischen Bereichen, die sorgfältig auf Korrektheit, Schwierigkeitsgrad und Themenkategorien annotiert sind, begleitet von systematisch konstruierten, überprüfbaren Theorem-Varianten. Wir entwickeln eine neuartige Verstärkungslernstrategie (RL-Zero), die speziell auf informelles Theorem Beweisen zugeschnitten ist und die verifizierten Theorem-Varianten nutzt, um robuste mathematische Inferenz zu fördern. Zusätzlich schlagen wir umfassende Bewertungsmetriken für Ergebnisse und Prozesse vor, die die Korrektheit der Beweise und die Qualität der Schlussfolgerungsschritte untersuchen. Umfangreiche experimentelle Analysen zeigen, dass DeepTheorem die Theorem-Beweis-Leistung von LLMs im Vergleich zu bestehenden Datensätzen und überwachten Feinabstimmungsprotokollen deutlich verbessert und dabei höchste Genauigkeit und Schlussfolgerungsqualität erreicht. Unsere Ergebnisse unterstreichen das Potenzial von DeepTheorem, das automatisierte informelle Theorem Beweisen und die mathematische Exploration grundlegend voranzutreiben.
Einheitliche Generierungsmodelle zielen darauf ab, vielfältige Aufgaben über verschiedene Modalitäten hinweg – wie Textgenerierung, Bildgenerierung und visuell-sprachliche Schlussfolgerungen – innerhalb einer einzigen Architektur und eines einheitlichen Dekodierungsparadigmas zu bewältigen. Autoregressive einheitliche Modelle leiden unter langsamer Inferenz aufgrund sequenzieller Dekodierung, während nicht-autoregressive einheitliche Modelle aufgrund begrenzter vortrainierter Backbones unter schwacher Generalisierung leiden. Wir stellen Muddit vor, einen einheitlichen diskreten Diffusions-Transformer, der schnelle und parallele Generierung über Text- und Bildmodalitäten ermöglicht. Im Gegensatz zu früheren einheitlichen Diffusionsmodellen, die von Grund auf trainiert wurden, integriert Muddit starke visuelle Prioritäten aus einem vortrainierten Text-zu-Bild-Backbone mit einem leichtgewichtigen Textdekoder, wodurch flexible und hochwertige multimodale Generierung unter einer einheitlichen Architektur ermöglicht wird. Empirische Ergebnisse zeigen, dass Muddit im Vergleich zu deutlich größeren autoregressiven Modellen sowohl in Bezug auf die Qualität als auch die Effizienz wettbewerbsfähige oder überlegene Leistungen erzielt. Die Arbeit unterstreicht das Potenzial rein diskreter Diffusion, wenn sie mit starken visuellen Prioritäten ausgestattet ist, als skalierbare und effektive Grundlage für einheitliche Generierung.
Reinforcement-Learning-Algorithmen sind grundlegend, um große Sprachmodelle an menschliche Präferenzen anzupassen und ihre Fähigkeiten zur logischen Schlussfolgerung zu verbessern. Allerdings leiden aktuelle Reinforcement-Learning-Algorithmen häufig unter Trainingsinstabilität aufgrund lockerer On-Policy-Einschränkungen und rechnerischer Ineffizienz durch zusätzliche Modelle. In dieser Arbeit schlagen wir On-Policy RL mit optimaler Belohnungsbasis (OPO) vor, einen neuartigen und vereinfachten Reinforcement-Learning-Algorithmus, der entwickelt wurde, um diese Herausforderungen zu bewältigen. OPO betont die Bedeutung eines exakten On-Policy-Trainings, das empirisch den Trainingsprozess stabilisiert und die Exploration verbessert. Darüber hinaus führt OPO die optimale Belohnungsbasis ein, die theoretisch die Gradientenvarianz minimiert. Wir evaluieren OPO anhand von Benchmarks für mathematisches Schlussfolgern. Die Ergebnisse zeigen seine überlegene Leistung und Trainingsstabilität ohne zusätzliche Modelle oder Regularisierungsterme. Darüber hinaus erreicht OPO geringere Policy-Verschiebungen und eine höhere Ausgabeentropie, was vielfältigere und weniger repetitive Antworten fördert. Diese Ergebnisse unterstreichen OPO als vielversprechende Richtung für stabiles und effektives Reinforcement Learning bei der Ausrichtung und logischen Schlussfolgerung großer Sprachmodelle. Die Implementierung ist unter https://github.com/microsoft/LMOps/tree/main/opo verfügbar.
Jüngste Fortschritte bei Agenten für große Sprachmodelle (LLMs) haben die Automatisierung wissenschaftlicher Entdeckungen erheblich beschleunigt, gleichzeitig jedoch kritische ethische und Sicherheitsbedenken aufgeworfen. Um diese Herausforderungen systematisch anzugehen, stellen wir SafeScientist vor, ein innovatives KI-Wissenschaftler-Framework, das explizit darauf ausgelegt ist, Sicherheit und ethische Verantwortung in der KI-gestützten wissenschaftlichen Forschung zu stärken. SafeScientist lehnt proaktiv ethisch unangemessene oder hochriskante Aufgaben ab und betont Sicherheit rigoros während des gesamten Forschungsprozesses. Um eine umfassende Sicherheitsüberwachung zu gewährleisten, integrieren wir mehrere Abwehrmechanismen, darunter Prompt-Überwachung, Agenten-Kollaborations-Überwachung, Werkzeugnutzungs-Überwachung und eine ethische Prüfkomponente. Ergänzend zu SafeScientist schlagen wir SciSafetyBench vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um KI-Sicherheit in wissenschaftlichen Kontexten zu bewerten. Dieser umfasst 240 hochriskante wissenschaftliche Aufgaben aus 6 Domänen sowie 30 speziell entwickelte wissenschaftliche Werkzeuge und 120 werkzeugbezogene Risikoaufgaben. Umfangreiche Experimente zeigen, dass SafeScientist die Sicherheitsleistung im Vergleich zu traditionellen KI-Wissenschaftler-Frameworks um 35\% verbessert, ohne die Qualität der wissenschaftlichen Ergebnisse zu beeinträchtigen. Zusätzlich validieren wir die Robustheit unserer Sicherheitspipeline rigoros gegen diverse Methoden für adversariale Angriffe, was die Wirksamkeit unseres integrierten Ansatzes weiter bestätigt. Der Code und die Daten werden unter https://github.com/ulab-uiuc/SafeScientist verfügbar sein. \red{Warnung: Dieses Papier enthält Beispieldaten, die anstößig oder schädlich sein könnten.}
Jüngste Fortschritte in Weltmodellen haben die Simulation dynamischer Umgebungen revolutioniert, indem sie Systemen ermöglichen, zukünftige Zustände vorherzusagen und potenzielle Aktionen zu bewerten. Im Bereich des autonomen Fahrens helfen diese Fähigkeiten Fahrzeugen, das Verhalten anderer Verkehrsteilnehmer vorherzusehen, risikobewusste Planungen durchzuführen, das Training in Simulationen zu beschleunigen und sich an neue Szenarien anzupassen, wodurch Sicherheit und Zuverlässigkeit verbessert werden. Aktuelle Ansätze weisen jedoch Mängel bei der Aufrechterhaltung einer robusten 3D-geometrischen Konsistenz oder bei der Anhäufung von Artefakten während der Behandlung von Verdeckungen auf, die beide für eine zuverlässige Sicherheitsbewertung in autonomen Navigationsaufgaben entscheidend sind. Um dies zu adressieren, stellen wir GeoDrive vor, das robuste 3D-Geometrie-Bedingungen explizit in Fahrmodelle integriert, um das räumliche Verständnis und die Handlungssteuerbarkeit zu verbessern. Konkret extrahieren wir zunächst eine 3D-Darstellung aus dem Eingangsbild und erzeugen dann dessen 2D-Rendering basierend auf der vom Benutzer vorgegebenen Ego-Fahrzeug-Trajektorie. Um dynamische Modellierung zu ermöglichen, schlagen wir ein dynamisches Bearbeitungsmodul während des Trainings vor, das die Renderings durch die Bearbeitung der Fahrzeugpositionen verbessert. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Modelle sowohl in der Handlungsgenauigkeit als auch im 3D-räumlichen Bewusstsein deutlich übertrifft, was zu einer realistischeren, anpassungsfähigeren und zuverlässigeren Szenenmodellierung für sichereres autonomes Fahren führt. Darüber hinaus kann unser Modell auf neue Trajektorien verallgemeinern und bietet interaktive Szenenbearbeitungsfunktionen, wie Objektbearbeitung und Objekttrajektorienkontrolle.
Chain-of-Thought (CoT)-Reasoning ermöglicht es großen Sprachmodellen (LLMs), über schnelle System-1-Antworten hinauszugehen und deliberative System-2-Argumentation zu betreiben. Dies geht jedoch mit erheblichen Ineffizienzen aufgrund von ausführlichen Zwischenausgaben einher. Aktuelle Methoden zur latenten Raum-Argumentation verbessern die Effizienz, indem sie auf versteckten Zuständen operieren, ohne diese in Sprache zu dekodieren. Dennoch behandeln sie alle Schritte gleichförmig, unterscheiden nicht zwischen kritischen Schlussfolgerungen und unterstützenden Schritten und führen so zu einer suboptimalen Nutzung der Rechenressourcen. In diesem Artikel schlagen wir System-1.5 Reasoning vor, ein adaptives Argumentationsframework, das die Berechnung dynamisch über die Argumentationsschritte hinweg durch Abkürzungspfade im latenten Raum verteilt. Konkret führt System-1.5 Reasoning zwei Arten von dynamischen Abkürzungen ein. Der Modelltiefen-Abkürzungspfad (DS) argumentiert adaptiv entlang der vertikalen Tiefe, indem nicht-kritische Token durch leichte Adapterzweige frühzeitig beendet werden, während kritische Token weiterhin durch tiefere Transformer-Schichten laufen. Der Schritt-Abkürzungspfad (SS) wiederverwendet versteckte Zustände über die Dekodierungsschritte hinweg, um triviale Schritte zu überspringen und horizontal im latenten Raum zu argumentieren. Das Training von System-1.5 Reasoning umfasst einen zweistufigen Selbst-Distillationsprozess: Zuerst wird die natürliche Sprache der CoT in kontinuierliches Denken im latenten Raum destilliert, und dann wird die vollständige System-2-latente Argumentation in adaptive Abkürzungspfade (System-1.5 Reasoning) destilliert. Experimente zu Argumentationsaufgaben demonstrieren die überlegene Leistung unserer Methode. Beispielsweise erreicht System-1.5 Reasoning auf GSM8K eine Argumentationsleistung, die mit traditionellen CoT-Fine-Tuning-Methoden vergleichbar ist, während die Inferenz um mehr als das 20-fache beschleunigt und die Token-Generierung im Durchschnitt um 92,31 % reduziert wird.
Arzt-Patienten-Konsultationen erfordern eine mehrstufige, kontextbewusste Kommunikation, die auf verschiedene Patiententypen zugeschnitten ist. Die Schulung oder Bewertung von Arzt-LLMs in solchen Settings erfordert realistische Patientensimulationssysteme. Bisherige Simulatoren bilden jedoch oft nicht die gesamte Bandbreite der in der klinischen Praxis vorkommenden Patiententypen ab. Um dies zu beheben, stellen wir PatientSim vor, einen Patientensimulator, der realistische und vielfältige Patiententypen für klinische Szenarien generiert, basierend auf medizinischem Fachwissen. PatientSim arbeitet mit: 1) klinischen Profilen, einschließlich Symptomen und Krankengeschichte, die aus realen Daten der MIMIC-ED- und MIMIC-IV-Datensätze abgeleitet werden, und 2) Patiententypen, die durch vier Achsen definiert sind: Persönlichkeit, Sprachkenntnisse, Erinnerungsvermögen an die Krankengeschichte und kognitive Verwirrtheit, was zu 37 einzigartigen Kombinationen führt. Wir bewerteten acht LLMs hinsichtlich faktischer Genauigkeit und Konsistenz der Patiententypen. Das beste Open-Source-Modell, Llama 3.3, wurde von vier Klinikern validiert, um die Robustheit unseres Frameworks zu bestätigen. Als Open-Source-Plattform mit Anpassungsmöglichkeiten bietet PatientSim eine reproduzierbare und skalierbare Lösung, die für spezifische Schulungsbedürfnisse angepasst werden kann. Mit einem datenschutzkonformen Umfeld dient es als robuste Testumgebung für die Bewertung medizinischer Dialogsysteme bei verschiedenen Patientendarstellungen und zeigt Potenzial als Bildungswerkzeug im Gesundheitswesen.
Transformer-basierte große Sprachmodelle (LLMs) speichern Kontext während der Inferenz als Schlüssel-Wert-Paare (KV-Paare). Mit zunehmender Kontextlänge vergrößern sich die KV-Cache-Größen, was zu erheblichem Speicheraufwand und erhöhter Aufmerksamkeitslatenz führt. Dieses Papier stellt KVzip vor, eine abfrageunabhängige KV-Cache-Evakuierungsmethode, die die effektive Wiederverwendung komprimierter KV-Caches über verschiedene Abfragen hinweg ermöglicht. KVzip quantifiziert die Bedeutung eines KV-Paares mithilfe des zugrunde liegenden LLMs, um den ursprünglichen Kontext aus den zwischengespeicherten KV-Paaren zu rekonstruieren, und entfernt anschließend Paare mit geringerer Bedeutung. Umfangreiche empirische Auswertungen zeigen, dass KVzip die KV-Cache-Größe um das 3- bis 4-fache reduziert und die FlashAttention-Decodierungslatenz um etwa das 2-fache verringert, bei vernachlässigbarem Leistungsverlust in Aufgaben wie Frage-Antwort, Retrieval, logischem Schlussfolgern und Code-Verständnis. Die Auswertungen umfassen verschiedene Modelle wie LLaMA3.1-8B, Qwen2.5-14B und Gemma3-12B, mit Kontextlängen von bis zu 170.000 Tokens. KVzip übertrifft deutlich bestehende abfrageabhängige KV-Evakuierungsmethoden, die selbst bei einem Cache-Budget-Verhältnis von 90% unter Mehrfachabfrageszenarien an Leistungseinbußen leiden.
Diffusionsmodelle haben eine bemerkenswerte Generierungsqualität gezeigt, jedoch auf Kosten zahlreicher Funktionsauswertungen. Kürzlich wurden fortschrittliche ODE-basierte Solver entwickelt, um den erheblichen Rechenaufwand der Rückwärtsdiffusion bei begrenzten Abtastschritten zu verringern. Diese Solver, die stark von Adams-ähnlichen Mehrschrittverfahren inspiriert sind, stützen sich jedoch ausschließlich auf t-bezogene Lagrange-Interpolation. Wir zeigen, dass t-bezogene Lagrange-Interpolation für Diffusionsmodelle suboptimal ist und enthüllen einen kompakten Suchraum, der aus Zeitschritten und Solver-Koeffizienten besteht. Aufbauend auf unserer Analyse schlagen wir einen neuartigen differenzierbaren Solver-Suchalgorithmus vor, um einen optimaleren Solver zu identifizieren. Ausgestattet mit dem gesuchten Solver erreichen korrigierte Flussmodelle, wie z.B. SiT-XL/2 und FlowDCN-XL/2, FID-Werte von 2,40 bzw. 2,35 auf ImageNet256 mit nur 10 Schritten. Gleichzeitig erreicht das DDPM-Modell DiT-XL/2 einen FID-Wert von 2,33 mit nur 10 Schritten. Bemerkenswerterweise übertrifft unser gesuchter Solver traditionelle Solver deutlich. Darüber hinaus zeigt unser gesuchter Solver eine breite Anwendbarkeit über verschiedene Modellarchitekturen, Auflösungen und Modellgrößen hinweg.
Bestehende Benchmarks für das Verständnis von Videos vermischen häufig wissensbasierte und rein bildbasierte Fragen, anstatt die zeitliche Argumentationsfähigkeit eines Modells klar zu isolieren, was der entscheidende Aspekt ist, der das Verständnis von Videos von anderen Modalitäten unterscheidet. Wir identifizieren zwei Hauptprobleme, die verschleiern, ob höhere Bewertungen tatsächlich ein besseres Verständnis des dynamischen Inhalts in Videos anzeigen: (1) starke Sprachprioritäten, bei denen Modelle Fragen beantworten können, ohne das Video anzusehen; und (2) Shuffling-Invarianz, bei der Modelle bei bestimmten Fragen eine ähnliche Leistung beibehalten, selbst wenn die Videobilder zeitlich durcheinandergebracht werden. Um diese Probleme zu mildern, schlagen wir VBenchComp vor, eine automatisierte Pipeline, die Fragen in verschiedene Domänen kategorisiert: LLM-beantwortbare, semantische und zeitliche Fragen. Insbesondere können LLM-beantwortbare Fragen ohne das Ansehen des Videos beantwortet werden; semantische Fragen bleiben beantwortbar, selbst wenn die Videobilder durcheinandergebracht werden; und zeitliche Fragen erfordern das Verständnis der korrekten zeitlichen Reihenfolge der Bilder. Die übrigen Fragen werden als „Andere“ gekennzeichnet. Dies ermöglicht eine detaillierte Bewertung der verschiedenen Fähigkeiten eines Video-LLMs. Unsere Analyse zeigt nuancenschwache Modellschwächen auf, die durch traditionelle Gesamtbewertungen verborgen bleiben, und wir bieten Einblicke und Empfehlungen für die Gestaltung zukünftiger Benchmarks, die Video-LLMs genauer bewerten.
Die Videogenerierung hat mit dem Aufkommen tiefer generativer Modelle, insbesondere diffusionsbasierter Ansätze, erhebliche Fortschritte gemacht. Dennoch steht die Videogenerierung basierend auf mehreren Referenzobjekten weiterhin vor erheblichen Herausforderungen, insbesondere bei der Aufrechterhaltung der Konsistenz mehrerer Objekte und der Sicherstellung einer hohen Generierungsqualität. In diesem Artikel stellen wir MAGREF vor, ein einheitliches Framework für die any-reference Videogenerierung, das eine maskierte Steuerung einführt, um eine kohärente Multi-Objekt-Videosynthese zu ermöglichen, die auf verschiedenen Referenzbildern und einem Textprompt basiert. Konkret schlagen wir (1) einen regionsbewussten dynamischen Maskierungsmechanismus vor, der es einem einzelnen Modell ermöglicht, flexibel verschiedene Objektinferenzen, einschließlich Menschen, Objekte und Hintergründe, ohne architektonische Änderungen zu handhaben, und (2) einen pixelweisen Kanalverknüpfungsmechanismus, der auf der Kanaldimension operiert, um Erscheinungsmerkmale besser zu bewahren. Unser Modell liefert eine state-of-the-art Videogenerierungsqualität, die sich von der Einzelobjekt-Schulung auf komplexe Multi-Objektszenarien mit kohärenter Synthese und präziser Kontrolle über einzelne Objekte verallgemeinert und dabei bestehende Open-Source- und kommerzielle Baselines übertrifft. Um die Bewertung zu erleichtern, führen wir außerdem einen umfassenden Multi-Objekt-Video-Benchmark ein. Umfangreiche Experimente demonstrieren die Wirksamkeit unseres Ansatzes und ebnen den Weg für skalierbare, kontrollierbare und hochwertige Multi-Objekt-Videosynthese. Code und Modell sind verfügbar unter: https://github.com/MAGREF-Video/MAGREF
Große Sprachmodelle (LLMs) haben vielversprechendes Potenzial in der Überzeugungsarbeit gezeigt, doch bestehende Arbeiten zur Ausbildung von LLM-Überzeugern sind noch vorläufig. Insbesondere sind Menschen geschickt darin, die Gedanken und Meinungen ihres Gegenübers proaktiv und dynamisch zu modellieren, während aktuelle LLMs mit solchen Theory of Mind (ToM)-Schlussfolgerungen kämpfen, was zu begrenzter Vielfalt und mangelndem Bewusstsein für das Gegenüber führt. Um diese Einschränkung zu überwinden, stellen wir den Theory of Mind Augmented Persuader (ToMAP) vor, einen neuartigen Ansatz zur Entwicklung flexiblerer Überzeugungsagenten durch die Integration von zwei Theory of Mind-Modulen, die das Bewusstsein und die Analyse des mentalen Zustands des Gegenübers verbessern. Konkret beginnen wir damit, den Überzeuger dazu anzuregen, mögliche Einwände gegen die zentrale Behauptung zu berücksichtigen, und verwenden dann einen Textencoder in Kombination mit einem trainierten MLP-Klassifikator, um die aktuelle Haltung des Gegenübers zu diesen Gegenargumenten vorherzusagen. Unser sorgfältig entworfenes Reinforcement-Learning-Schema ermöglicht es dem Überzeuger, zu lernen, wie er gegnerbezogene Informationen analysiert und nutzt, um effektivere Argumente zu generieren. Experimente zeigen, dass der ToMAP-Überzeuger, obwohl er nur 3B Parameter enthält, deutlich größere Baselines wie GPT-4o übertrifft, mit einem relativen Gewinn von 39,4 % über mehrere Überzeugungsmodelle und diverse Korpora hinweg. Insbesondere zeigt ToMAP komplexe Argumentationsketten und reduzierte Wiederholungen während des Trainings, was zu vielfältigeren und effektiveren Argumenten führt. Die gegnerbewusste Eigenschaft von ToMAP macht ihn auch für lange Gespräche geeignet und ermöglicht es ihm, logischere und gegnerbewusstere Strategien einzusetzen. Diese Ergebnisse unterstreichen die Wirksamkeit unserer Methode und heben ihr Potenzial für die Entwicklung überzeugenderer Sprachagenten hervor. Der Code ist verfügbar unter: https://github.com/ulab-uiuc/ToMAP.
In diesem Artikel vereinheitlichen wir mehr als 10 bestehende Ansätze zur Ein-Schritt-Diffusionsdestillation, wie Diff-Instruct, DMD, SIM, SiD, f-distill usw., innerhalb eines theoriegestützten Frameworks, das wir als \emph{Uni-Instruct} bezeichnen. Uni-Instruct wird durch unsere vorgeschlagene Diffusionsexpansionstheorie der f-Divergenz-Familie motiviert. Anschließend führen wir Schlüsseltheorien ein, die die Intraktabilität der ursprünglich erweiterten f-Divergenz überwinden, was zu einem äquivalenten, jedoch handhabbaren Verlust führt, der Ein-Schritt-Diffusionsmodelle effektiv trainiert, indem die erweiterte f-Divergenz-Familie minimiert wird. Die neuartige Vereinheitlichung durch Uni-Instruct bietet nicht nur neue theoretische Beiträge, die helfen, bestehende Ansätze aus einer übergeordneten Perspektive zu verstehen, sondern führt auch zu state-of-the-art Ergebnissen bei der Ein-Schritt-Diffusionsgenerierung. Auf dem CIFAR10-Generierungsbenchmark erreicht Uni-Instruct rekordverdächtige Frechet-Inception-Distance (FID)-Werte von \emph{1,46} für die unkonditionierte Generierung und \emph{1,38} für die konditionierte Generierung. Auf dem ImageNet-64x64-Generierungsbenchmark erreicht Uni-Instruct einen neuen SoTA-FID für die Ein-Schritt-Generierung von \emph{1,02}, was seinen 79-Schritt-Lehrer-Diffusionsprozess mit einem signifikanten Verbesserungsspielraum von 1,33 (1,02 vs. 2,35) übertrifft. Wir wenden Uni-Instruct auch auf breitere Aufgaben wie die Text-zu-3D-Generierung an. Für die Text-zu-3D-Generierung liefert Uni-Instruct ansprechende Ergebnisse, die frühere Methoden wie SDS und VSD in Bezug auf Generierungsqualität und Diversität leicht übertreffen. Sowohl die soliden theoretischen als auch empirischen Beiträge von Uni-Instruct werden potenziell zukünftige Studien zur Ein-Schritt-Diffusionsdestillation und zum Wissenstransfer von Diffusionsmodellen unterstützen.
Die Quellentrennung von Audiosignalen ist grundlegend dafür, dass Maschinen komplexe akustische Umgebungen verstehen können, und bildet die Basis für zahlreiche Audioanwendungen. Aktuelle überwachte Deep-Learning-Ansätze sind zwar leistungsstark, jedoch durch den Bedarf an umfangreichen, aufgabenspezifisch gelabelten Daten eingeschränkt und haben Schwierigkeiten, sich an die immense Variabilität und die offene Natur realer akustischer Szenen anzupassen. Inspiriert durch den Erfolg generativer Foundation-Modelle untersuchen wir, ob vortrainierte textgesteuerte Audio-Diffusionsmodelle diese Einschränkungen überwinden können. Wir machen eine überraschende Entdeckung: Zero-Shot-Quellentrennung kann allein durch ein vortrainiertes textgesteuertes Audio-Diffusionsmodell unter der richtigen Konfiguration erreicht werden. Unser Verfahren, genannt ZeroSep, funktioniert, indem das gemischte Audio in den latenten Raum des Diffusionsmodells invertiert wird und dann die Textkonditionierung verwendet wird, um den Entrauschungsprozess zu steuern und einzelne Quellen wiederherzustellen. Ohne aufgabenspezifisches Training oder Feinabstimmung nutzt ZeroSep das generative Diffusionsmodell für eine diskriminative Trennaufgabe und unterstützt von Natur aus offene Szenarien durch seine reichhaltigen textuellen Prioritäten. ZeroSep ist mit einer Vielzahl von vortrainierten textgesteuerten Audio-Diffusions-Backbones kompatibel und liefert eine starke Trennleistung auf mehreren Trenn-Benchmarks, die sogar überwachte Methoden übertrifft.
Große Sprachmodelle (LLMs) generieren funktional korrekte Lösungen, erreichen jedoch oft nicht die erforderliche Code-Effizienz, was ein kritischer Engpass für den Einsatz in der Praxis darstellt. In diesem Artikel stellen wir ein neuartiges Framework zur iterativen Optimierung zur Laufzeit vor, das ein geschlossenes System verwendet, in dem LLMs den Code basierend auf empirischen Leistungsrückmeldungen aus einer Ausführungsumgebung iterativ verfeinern. Wir untersuchen drei Trainingsstrategien: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und Group Relative Policy Optimization (GRPO). Experimente auf unserem Venus-Datensatz und dem APPS-Benchmark zeigen, dass SFT und DPO schnell in Bezug auf Effizienzgewinne gesättigt sind. Im Gegensatz dazu optimiert GRPO, das Verstärkungslernen (RL) mit Ausführungsfeedback nutzt, die Codeleistung kontinuierlich und steigert sowohl die pass@1-Rate (von 47 % auf 62 %) als auch die Wahrscheinlichkeit, menschliche Einreichungen in der Effizienz zu übertreffen (von 31 % auf 45 %). Unsere Arbeit demonstriert eine effektive Verbesserung der Code-Effizienz zur Laufzeit und zeigt kritisch die Stärke von RL auf, LLMs beizubringen, die Code-Effizienz wirklich selbst zu verbessern.
Wir schlagen ein einheitliches Framework für die Bewegungssteuerung in der Videogenerierung vor, das nahtlos Kamerabewegungen, Objekttranslationen und fein abgestimmte lokale Bewegungen durch trajektorienbasierte Eingaben integriert. Im Gegensatz zu früheren Methoden, die diese Bewegungstypen durch separate Module oder aufgabenspezifische Designs behandeln, bietet unser Ansatz eine kohärente Lösung, indem benutzerdefinierte Trajektorien über einen leichtgewichtigen Bewegungsinjektor in den latenten Raum vortrainierter Bild-zu-Video-Generierungsmodelle projiziert werden. Benutzer können Keypoints und deren Bewegungspfade angeben, um lokale Verformungen, gesamte Objektbewegungen, virtuelle Kameradynamiken oder Kombinationen davon zu steuern. Die injizierten Trajektoriensignale leiten den Generierungsprozess an, um zeitlich konsistente und semantisch ausgerichtete Bewegungssequenzen zu erzeugen. Unser Framework zeigt überlegene Leistung bei verschiedenen Aufgaben der Videobewegungssteuerung, darunter stilisierte Bewegungseffekte (z. B. Bewegungsbürsten), dynamische Blickwinkeländerungen und präzise lokale Bewegungsmanipulation. Experimente zeigen, dass unsere Methode im Vergleich zu früheren Ansätzen und kommerziellen Lösungen deutlich bessere Steuerbarkeit und visuelle Qualität bietet, während sie breit mit verschiedenen state-of-the-art Videogenerierungs-Backbones kompatibel bleibt. Projektseite: https://anytraj.github.io/.
Diffusion Transformers (DiT) haben sich als de-facto Modell für die Erzeugung hochwertiger visueller Inhalte wie Videos und Bilder etabliert. Ein erheblicher Engpass ist der Aufmerksamkeitsmechanismus, dessen Komplexität quadratisch mit der Auflösung und der Videolänge skaliert. Ein logischer Ansatz, um diese Belastung zu verringern, ist die spärliche Aufmerksamkeit (sparse attention), bei der nur eine Teilmenge von Tokens oder Patches in die Berechnung einbezogen wird. Bestehende Techniken scheitern jedoch daran, die visuelle Qualität bei extrem hohen Sparsamkeitsniveaus zu erhalten und können sogar nicht vernachlässigbare Rechenkosten verursachen. Um dieses Problem zu lösen, schlagen wir Re-ttention vor, das eine sehr hohe spärliche Aufmerksamkeit für visuelle Generierungsmodelle implementiert, indem es die zeitliche Redundanz von Diffusion Models nutzt, um die probabilistische Normalisierungsverschiebung innerhalb des Aufmerksamkeitsmechanismus zu überwinden. Konkret formt Re-ttention die Aufmerksamkeitswerte basierend auf der vorherigen Softmax-Verteilungshistorie um, um die visuelle Qualität der vollständigen quadratischen Aufmerksamkeit bei sehr hohen Sparsamkeitsniveaus zu bewahren. Experimentelle Ergebnisse an T2V/T2I-Modellen wie CogVideoX und den PixArt DiTs zeigen, dass Re-ttention während der Inferenz nur 3,1 % der Tokens benötigt und dabei zeitgenössische Methoden wie FastDiTAttn, Sparse VideoGen und MInference übertrifft. Darüber hinaus messen wir die Latenz, um zu zeigen, dass unsere Methode eine End-to-End-Reduktion von über 45 % und eine Selbstaufmerksamkeitslatenzreduktion von über 92 % auf einer H100-GPU bei vernachlässigbaren Zusatzkosten erreichen kann. Code verfügbar unter: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
Wir trainierten 13.440 große Sprachmodelle und fanden heraus, dass die Entropieminimierung lediglich einen einzelnen unmarkierten Datensatz und 10 Optimierungsschritte benötigt, um Leistungsverbesserungen zu erzielen, die vergleichbar oder sogar größer sind als diejenigen, die mit Tausenden von Daten und sorgfältig gestalteten Belohnungen in regelbasiertem Reinforcement Learning erreicht werden. Dieses bemerkenswerte Ergebnis könnte ein Umdenken in den Nachschulungsparadigmen für große Sprachmodelle anstoßen. Unser Code ist verfügbar unter https://github.com/zitian-gao/one-shot-em.
Rebus-Rätsel, visuelle Rätsel, die Sprache durch Bildsprache, räumliche Anordnung und symbolische Substitution kodieren, stellen eine einzigartige Herausforderung für aktuelle Vision-Language-Modelle (VLMs) dar. Im Gegensatz zu traditionellen Aufgaben wie Bildbeschreibung oder Fragebeantwortung erfordert das Lösen von Rebus-Rätseln multimodale Abstraktion, symbolisches Denken sowie ein Verständnis für kulturelle, phonetische und linguistische Wortspiele. In diesem Artikel untersuchen wir die Fähigkeit zeitgenössischer VLMs, Rebus-Rätsel zu interpretieren und zu lösen, indem wir einen manuell erstellten und annotierten Benchmark mit vielfältigen englischsprachigen Rebus-Rätseln erstellen, die von einfachen bildhaften Substitutionen bis hin zu räumlich abhängigen Hinweisen (z. B. „head“ über „heels“) reichen. Wir analysieren, wie verschiedene VLMs abschneiden, und unsere Ergebnisse zeigen, dass VLMs zwar überraschende Fähigkeiten beim Entschlüsseln einfacher visueller Hinweise aufweisen, jedoch erheblich mit Aufgaben kämpfen, die abstraktes Denken, laterales Denken und das Verständnis visueller Metaphern erfordern.
Aktuelle Large Reasoning Models (LRMs) mit Denkspuren haben starke Leistungen bei englischsprachigen Denkaufgaben gezeigt. Ihre Fähigkeit, in anderen Sprachen zu denken, wurde jedoch weniger untersucht. Diese Fähigkeit ist für reale Anwendungen ebenso wichtig wie die Antwortgenauigkeit, da Benutzer die Denkspur nur dann nützlich für die Überwachung finden, wenn sie in ihrer eigenen Sprache ausgedrückt ist. Wir evaluieren umfassend zwei führende Familien von LRMs auf unserem XReasoning-Benchmark und stellen fest, dass selbst die fortschrittlichsten Modelle oft auf Englisch zurückgreifen oder fragmentierte Denkprozesse in anderen Sprachen produzieren, was eine erhebliche Lücke im mehrsprachigen Denken offenbart. Prompt-basierte Interventionen, die Modelle dazu zwingen, in der Sprache des Benutzers zu denken, verbessern die Lesbarkeit und Überwachung, reduzieren jedoch die Antwortgenauigkeit, was einen wichtigen Kompromiss aufzeigt. Wir zeigen weiter, dass gezieltes Nachtraining mit nur 100 Beispielen diese Diskrepanz mildert, obwohl ein gewisser Genauigkeitsverlust bestehen bleibt. Unsere Ergebnisse unterstreichen die begrenzten mehrsprachigen Denkfähigkeiten aktueller LRMs und skizzieren Richtungen für zukünftige Arbeiten. Code und Daten sind verfügbar unter https://github.com/Betswish/mCoT-XReasoning.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) haben vielversprechende Anwendungen in medizinischen Aufgaben ermöglicht, wie beispielsweise die Generierung von Berichten und visuelle Frage-Antwort-Systeme. Allerdings konzentrieren sich bestehende Benchmarks hauptsächlich auf die endgültige Diagnose und bieten nur begrenzte Einblicke, ob die Modelle klinisch relevante Schlussfolgerungen ziehen. Um dies zu adressieren, präsentieren wir CheXStruct und CXReasonBench, eine strukturierte Pipeline und einen Benchmark, die auf dem öffentlich verfügbaren MIMIC-CXR-JPG-Datensatz basieren. CheXStruct leitet automatisch eine Abfolge von Zwischenschritten direkt aus Röntgenaufnahmen des Brustkorbs ab, wie beispielsweise die Segmentierung anatomischer Regionen, die Ableitung anatomischer Landmarken und diagnostischer Messungen, die Berechnung diagnostischer Indizes und die Anwendung klinischer Schwellenwerte. CXReasonBench nutzt diese Pipeline, um zu bewerten, ob Modelle klinisch valide Schlussfolgerungsschritte durchführen können und inwieweit sie aus strukturierter Anleitung lernen können, was eine fein granulierte und transparente Bewertung der diagnostischen Schlussfolgerung ermöglicht. Der Benchmark umfasst 18.988 Frage-Antwort-Paare über 12 diagnostische Aufgaben und 1.200 Fälle, jeweils gepaart mit bis zu 4 visuellen Eingaben, und unterstützt eine mehrpfadige, mehrstufige Bewertung, einschließlich visueller Verankerung durch die Auswahl anatomischer Regionen und diagnostischer Messungen. Selbst die stärksten der 10 evaluierten LVLMs haben Schwierigkeiten mit strukturiertem Denken und Generalisierung und scheitern oft daran, abstraktes Wissen mit anatomisch fundierter visueller Interpretation zu verknüpfen. Der Code ist verfügbar unter https://github.com/ttumyche/CXReasonBench.
Vision-Language-Modelle (VLMs) haben starke Fähigkeiten bei der Ausrichtung visueller und textueller Modalitäten gezeigt, was eine Vielzahl von Anwendungen im Bereich des multimodalen Verstehens und der Generierung ermöglicht. Obwohl sie in Zero-Shot- und Transfer-Learning-Szenarien hervorragend abschneiden, bleiben VLMs anfällig für Fehlklassifizierungen und liefern oft zuversichtliche, aber falsche Vorhersagen. Diese Einschränkung stellt ein erhebliches Risiko in sicherheitskritischen Bereichen dar, in denen fehlerhafte Vorhersagen schwerwiegende Folgen haben können. In dieser Arbeit stellen wir TrustVLM vor, ein trainingsfreies Framework, das die kritische Herausforderung der Schätzung, wann den Vorhersagen eines VLM vertraut werden kann, adressiert. Motiviert durch die beobachtete Modality Gap in VLMs und der Erkenntnis, dass bestimmte Konzepte im Bild-Einbettungsraum deutlicher repräsentiert sind, schlagen wir eine neuartige Confidence-Scoring-Funktion vor, die diesen Raum nutzt, um die Erkennung von Fehlklassifizierungen zu verbessern. Wir evaluieren unseren Ansatz rigoros über 17 verschiedene Datensätze, unter Verwendung von 4 Architekturen und 2 VLMs, und demonstrieren state-of-the-art Leistungen mit Verbesserungen von bis zu 51,87 % in AURC, 9,14 % in AUROC und 32,42 % in FPR95 im Vergleich zu bestehenden Baselines. Durch die Verbesserung der Zuverlässigkeit des Modells ohne erneutes Training ebnet TrustVLM den Weg für einen sichereren Einsatz von VLMs in realen Anwendungen. Der Code wird unter https://github.com/EPFL-IMOS/TrustVLM verfügbar sein.
Wir stellen UniTEX vor, ein neuartiges zweistufiges Framework zur 3D-Texturgenerierung, das hochwertige, konsistente Texturen für 3D-Assets erzeugt. Bestehende Ansätze verlassen sich überwiegend auf UV-basiertes Inpainting, um Texturen zu verfeinern, nachdem die generierten Multi-View-Bilder auf die 3D-Formen reprojiziert wurden, was Herausforderungen im Zusammenhang mit topologischer Mehrdeutigkeit mit sich bringt. Um dies zu adressieren, schlagen wir vor, die Einschränkungen des UV-Mappings zu umgehen, indem direkt in einem einheitlichen 3D-Funktionsraum gearbeitet wird. Konkret schlagen wir zunächst vor, die Texturgenerierung mittels Texture Functions (TFs) in den 3D-Raum zu heben – eine kontinuierliche, volumetrische Darstellung, die jeden 3D-Punkt basierend ausschließlich auf der Oberflächennähe auf einen Texturwert abbildet, unabhängig von der Mesh-Topologie. Anschließend schlagen wir vor, diese TFs direkt aus Bild- und Geometrie-Eingaben mithilfe eines transformer-basierten Large Texturing Models (LTM) vorherzusagen. Um die Texturqualität weiter zu verbessern und leistungsstarke 2D-Priors zu nutzen, entwickeln wir eine fortschrittliche LoRA-basierte Strategie zur effizienten Anpassung von großskaligen Diffusion Transformers (DiTs) für die hochwertige Multi-View-Textursynthese als unsere erste Stufe. Umfangreiche Experimente zeigen, dass UniTEX im Vergleich zu bestehenden Ansätzen eine überlegene visuelle Qualität und Texturintegrität erreicht und eine generalisierbare und skalierbare Lösung für die automatisierte 3D-Texturgenerierung bietet. Der Code wird verfügbar sein unter: https://github.com/YixunLiang/UniTEX.
Gaussian Splatting (GS) hat sich kürzlich als effiziente Darstellung für das Rendern von 3D-Szenen aus 2D-Bildern etabliert und wurde auf Bilder, Videos und dynamische 4D-Inhalte erweitert. Die Anwendung von Stiltransfer auf GS-basierte Darstellungen, insbesondere über einfache Farbänderungen hinaus, bleibt jedoch eine Herausforderung. In dieser Arbeit stellen wir CLIPGaussians vor, das erste einheitliche Stiltransfer-Framework, das text- und bildgesteuerte Stilisierung über mehrere Modalitäten hinweg unterstützt: 2D-Bilder, Videos, 3D-Objekte und 4D-Szenen. Unsere Methode arbeitet direkt auf Gaußschen Primitiven und integriert sich als Plug-in-Modul in bestehende GS-Pipelines, ohne große generative Modelle oder ein Neulernen von Grund auf zu erfordern. Der CLIPGaussians-Ansatz ermöglicht eine gemeinsame Optimierung von Farbe und Geometrie in 3D- und 4D-Umgebungen und erreicht zeitliche Kohärenz in Videos, während die Modellgröße erhalten bleibt. Wir demonstrieren überlegene Stiltreue und Konsistenz über alle Aufgaben hinweg und validieren CLIPGaussians als universelle und effiziente Lösung für multimodalen Stiltransfer.
Bestehende Chain-of-Thought (CoT)-Destillationsmethoden können die Fähigkeiten zur logischen Schlussfolgerung effektiv auf Basismodelle übertragen, leiden jedoch unter zwei wesentlichen Einschränkungen: übermäßige Ausführlichkeit der Argumentationspfade und unzureichende Anpassungsfähigkeit an den Schwierigkeitsgrad der Probleme. Lange Argumentationspfade erhöhen die Inferenzkosten erheblich, und gleich lange Lösungen verhindern, dass Basismodelle adaptive Argumentationsstrategien erlernen. Um diese Probleme zu lösen, schlagen wir eine schwierigkeitsabhängige Prompting-Methode (Difficulty-Aware Prompting, DAP) vor, um Argumentationspfade dynamisch zu verkürzen, ohne dabei die Leistung zu beeinträchtigen. In unserem Ansatz bewertet zunächst ein großes Lehrermodell den Schwierigkeitsgrad jedes Problems und formuliert dann seine Argumentationspfade auf eine angemessene kürzere Länge um, wodurch prägnante, aber vollständige Argumentationspfade entstehen. Mithilfe der DAP-Pipeline haben wir einen destillierten Datensatz namens LiteCoT erstellt, der aus 100.000 prägnanten Argumentationsbeispielen besteht, wobei die Lösungen durchschnittlich nur 720 Tokens umfassen (eine Größenordnung kürzer als typische CoTs). Mit LiteCoT haben wir eine neue Familie von Argumentationsmodellen namens Liter (1,5B, 7B und 32B) auf Basis der Qwen2.5-Architektur destilliert. Experimente zeigen, dass ein Schülermodell, das mit nur 100.000 dieser schwierigkeitsgeprüften CoT-Beispiele feinabgestimmt wurde, ein Modell übertrifft, das mit 800.000 ursprünglichen Long CoT-Beispielen destilliert wurde, während gleichzeitig die Trainings- und Inferenzkosten erheblich reduziert werden. Unsere Methode generalisiert ebenfalls gut: Über 11 verschiedene Benchmarks hinweg erreichen die kürzeren, schwierigkeitsabhängigen CoTs eine gleichwertige oder bessere Genauigkeit als lange Ketten, wobei weitaus weniger Tokens verwendet werden. Beispielsweise erreicht unser Ansatz bei der anspruchsvollen AIME24-Prüfung 74,2 % Pass@1 mit nur etwa 5.000 Inferenz-Tokens und übertrifft damit andere Methoden, die deutlich mehr Tokens verbrauchen. Unser Code und unsere Daten sind unter https://github.com/Evanwu1125/LiteCoT verfügbar.
Wir präsentieren ein Keyframe-basiertes Framework zur Erzeugung von musik-synchronisierten, choreografiebewussten Tier-Tanzvideos. Ausgehend von wenigen Keyframes, die unterschiedliche Tierposen darstellen – erzeugt durch Text-zu-Bild-Prompting oder GPT-4o – formulieren wir die Tanzsynthese als ein Graph-Optimierungsproblem: Finde die optimale Keyframe-Struktur, die ein vorgegebenes Choreografie-Muster von Beats erfüllt, das automatisch aus einem Referenztanzvideo geschätzt werden kann. Wir führen zudem einen Ansatz zur Erzeugung gespiegelter Posendarstellungen ein, der essenziell ist, um Symmetrie im Tanz zu erfassen. Zwischenframes werden mithilfe eines Video-Diffusionsmodells synthetisiert. Mit nur sechs Eingabe-Keyframes kann unsere Methode bis zu 30 Sekunden lange Tanzvideos für eine Vielzahl von Tieren und Musikstücken erzeugen.
Feed-forward 3D Gaussian Splatting (3DGS)-Modelle haben sich kürzlich als vielversprechende Lösung für die Synthese neuer Ansichten erwiesen, da sie eine Einmal-Inferenz ermöglichen, ohne eine pro-Szene 3DGS-Optimierung zu erfordern. Ihre Skalierbarkeit ist jedoch grundlegend durch die begrenzte Kapazität ihrer Encoder eingeschränkt, was zu einer Verschlechterung der Leistung oder einem übermäßigen Speicherverbrauch führt, sobald die Anzahl der Eingabeansichten zunimmt. In dieser Arbeit analysieren wir Feed-forward-3DGS-Frameworks durch die Linse des Information-Bottleneck-Prinzips und führen ZPressor ein, ein leichtgewichtiges, architekturunabhängiges Modul, das eine effiziente Kompression von Multi-View-Eingaben in einen kompakten latenten Zustand Z ermöglicht, der wesentliche Szeneninformationen bewahrt, während Redundanzen verworfen werden. Konkret ermöglicht ZPressor bestehenden Feed-forward-3DGS-Modellen, auf über 100 Eingabeansichten bei 480P-Auflösung auf einer 80GB-GPU zu skalieren, indem die Ansichten in Anker- und Unterstützungsmengen unterteilt werden und Cross-Attention verwendet wird, um die Informationen aus den Unterstützungsansichten in Ankeransichten zu komprimieren und so den komprimierten latenten Zustand Z zu bilden. Wir zeigen, dass die Integration von ZPressor in mehrere state-of-the-art Feed-forward-3DGS-Modelle die Leistung bei moderaten Eingabeansichten konsistent verbessert und die Robustheit unter dichten Ansichtseinstellungen auf zwei groß angelegten Benchmarks, DL3DV-10K und RealEstate10K, erhöht. Die Videoergebnisse, der Code und die trainierten Modelle sind auf unserer Projektseite verfügbar: https://lhmd.top/zpressor.
Die Entwicklung von Hochleistungssoftware ist eine komplexe Aufgabe, die spezialisiertes Fachwissen erfordert. Wir stellen GSO vor, einen Benchmark zur Bewertung der Fähigkeiten von Sprachmodellen bei der Entwicklung von Hochleistungssoftware. Wir entwickeln eine automatisierte Pipeline, die Leistungstests generiert und ausführt, um Repository-Commit-Historien zu analysieren und 102 anspruchsvolle Optimierungsaufgaben über 10 Codebasen hinweg zu identifizieren, die verschiedene Domänen und Programmiersprachen abdecken. Ein Agent erhält eine Codebasis und einen Leistungstest als präzise Spezifikation und hat die Aufgabe, die Laufzeiteffizienz zu verbessern, die anhand der Optimierung durch erfahrene Entwickler gemessen wird. Unsere quantitative Auswertung zeigt, dass führende SWE-Agents erhebliche Schwierigkeiten haben und eine Erfolgsquote von weniger als 5 % erreichen, mit nur begrenzten Verbesserungen selbst bei Skalierung zur Inferenzzeit. Unsere qualitative Analyse identifiziert zentrale Fehlermodi, darunter Schwierigkeiten mit Low-Level-Sprachen, die Anwendung von trägen Optimierungsstrategien und Herausforderungen bei der präzisen Lokalisierung von Engpässen. Wir veröffentlichen den Code und die Artefakte unseres Benchmarks zusammen mit Agenten-Trajektorien, um zukünftige Forschung zu ermöglichen.
Während vortrainierte multimodale Repräsentationen (z.B. CLIP) beeindruckende Fähigkeiten gezeigt haben, weisen sie signifikante kompositionelle Schwachstellen auf, die zu kontraintuitiven Urteilen führen. Wir stellen Multimodal Adversarial Compositionality (MAC) vor, einen Benchmark, der große Sprachmodelle (LLMs) nutzt, um trügerische Textproben zu generieren, um diese Schwachstellen über verschiedene Modalitäten hinweg auszunutzen, und bewertet sie sowohl durch die angriffsbezogene Erfolgsrate auf Probenebene als auch durch die gruppenbasierte Entropie-basierte Diversität. Um Zero-Shot-Methoden zu verbessern, schlagen wir einen Selbsttrainingsansatz vor, der Rejection-Sampling-Feintuning mit diversitätsfördernder Filterung kombiniert, was sowohl die Angriffserfolgsrate als auch die Probenvielfalt erhöht. Mit kleineren Sprachmodellen wie Llama-3.1-8B zeigt unser Ansatz eine überlegene Leistung bei der Aufdeckung kompositioneller Schwachstellen in verschiedenen multimodalen Repräsentationen, einschließlich Bildern, Videos und Audios.
In den letzten Jahren gab es rasante Fortschritte bei der KI-gestützten Bildgenerierung. Frühe Diffusionsmodelle legten den Schwerpunkt auf die Wahrnehmungsqualität, während neuere multimodale Modelle wie GPT-4o-image höhere Denkfähigkeiten integrieren, was das semantische Verständnis und die strukturelle Komposition verbessert. Die Generierung wissenschaftlicher Illustrationen veranschaulicht diese Entwicklung: Im Gegensatz zur allgemeinen Bildsynthese erfordert sie eine präzise Interpretation technischer Inhalte und die Transformation abstrakter Ideen in klare, standardisierte Visualisierungen. Diese Aufgabe ist deutlich wissensintensiver und arbeitsaufwendiger und erfordert oft Stunden manueller Arbeit sowie spezialisierte Werkzeuge. Eine automatisierte, kontrollierbare und intelligente Lösung hierfür würde einen erheblichen praktischen Nutzen bieten. Bislang existiert jedoch kein Benchmark, um KI in diesem Bereich zu bewerten. Um diese Lücke zu schließen, führen wir SridBench ein, den ersten Benchmark für die Generierung wissenschaftlicher Abbildungen. Er umfasst 1.120 Instanzen, die aus führenden wissenschaftlichen Publikationen in 13 Natur- und Informatikdisziplinen kuratiert und von menschlichen Experten sowie MLLMs gesammelt wurden. Jede Probe wird entlang sechs Dimensionen bewertet, darunter semantische Treue und strukturelle Genauigkeit. Experimentelle Ergebnisse zeigen, dass selbst Spitzenmodelle wie GPT-4o-image hinter der menschlichen Leistung zurückbleiben, mit häufigen Problemen in der Text-/Bildklarheit und wissenschaftlichen Korrektheit. Diese Erkenntnisse unterstreichen die Notwendigkeit fortschrittlicherer, reasoning-gestützter Fähigkeiten in der visuellen Generierung.
Radiologieberichte vermitteln detaillierte klinische Beobachtungen und erfassen diagnostische Schlussfolgerungen, die sich im Laufe der Zeit entwickeln. Bisherige Evaluierungsmethoden beschränken sich jedoch auf Einzelberichte und verwenden grobe Metriken, die fein abgestufte klinische Semantik und zeitliche Abhängigkeiten nicht erfassen können. Wir stellen LUNGUAGE vor, einen Benchmark-Datensatz für die strukturierte Generierung von Radiologieberichten, der sowohl die Bewertung einzelner Berichte als auch die longitudinale Patientenebene über mehrere Studien hinweg unterstützt. Der Datensatz enthält 1.473 annotierte Röntgenaufnahmen des Brustkorbs, die jeweils von Experten überprüft wurden, sowie 80 Berichte mit longitudinalen Annotationen, die den Krankheitsverlauf und die Intervalle zwischen den Studien erfassen und ebenfalls von Experten geprüft wurden. Mit diesem Benchmark entwickeln wir ein zweistufiges Framework, das generierte Berichte in fein abgestufte, schema-konforme strukturierte Darstellungen transformiert und so eine longitudinale Interpretation ermöglicht. Wir schlagen außerdem LUNGUAGESCORE vor, eine interpretierbare Metrik, die strukturierte Ausgaben auf der Ebene von Entitäten, Relationen und Attributen vergleicht und dabei die zeitliche Konsistenz über Patientenzeitlinien hinweg modelliert. Diese Beiträge etablieren den ersten Benchmark-Datensatz, ein Strukturierungsframework und eine Evaluierungsmetrik für sequenzielle Radiologieberichte, wobei empirische Ergebnisse zeigen, dass LUNGUAGESCORE die strukturierte Berichtsbewertung effektiv unterstützt. Der Code ist verfügbar unter: https://github.com/SuperSupermoon/Lunguage
Die zunehmenden Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) haben Aufgaben wie das Verständnis von Diagrammen vorangetrieben. Allerdings leiden diese Modelle oft unter Halluzinationen, bei denen generierte Textsequenzen im Widerspruch zu den bereitgestellten visuellen Daten stehen. Um dies zu adressieren, führen wir Post-Hoc Visual Attribution for Charts ein, das feinkörnige Diagrammelemente identifiziert, die eine gegebene diagrammbezogene Antwort validieren. Wir schlagen ChartLens vor, einen neuartigen Diagramm-Zuordnungsalgorithmus, der segmentierungsbasierte Techniken verwendet, um Diagrammobjekte zu identifizieren, und set-of-marks-Prompting mit MLLMs für feinkörnige visuelle Zuordnung einsetzt. Zusätzlich präsentieren wir ChartVA-Eval, ein Benchmark mit synthetischen und realen Diagrammen aus verschiedenen Bereichen wie Finanzen, Politik und Wirtschaft, das feinkörnige Zuordnungsannotationen enthält. Unsere Auswertungen zeigen, dass ChartLens die feinkörnigen Zuordnungen um 26-66% verbessert.
Große Sprachmodelle wurden umfassend als neuronale Wissensbasen untersucht, insbesondere in Bezug auf ihren Wissenszugriff, ihre Bearbeitbarkeit, ihre Schlussfolgerungsfähigkeit und ihre Erklärbarkeit. Allerdings konzentrieren sich nur wenige Arbeiten auf die strukturellen Muster ihres Wissens. Angespornt durch diese Lücke untersuchen wir diese strukturellen Muster aus einer Graphenperspektive. Wir quantifizieren das Wissen von Sprachmodellen sowohl auf der Ebene von Tripeln als auch von Entitäten und analysieren, wie es mit graphenstrukturellen Eigenschaften wie dem Knotengrad zusammenhängt. Darüber hinaus decken wir die Wissenshomophilie auf, bei der topologisch nahe Entitäten ähnliche Wissensniveaus aufweisen, was uns weiterhin motiviert, Graph-Machine-Learning-Modelle zu entwickeln, um das Wissen einer Entität basierend auf ihren lokalen Nachbarn zu schätzen. Dieses Modell ermöglicht zudem eine wertvolle Wissensüberprüfung, indem Tripel ausgewählt werden, die den Sprachmodellen weniger bekannt sind. Empirische Ergebnisse zeigen, dass die Feinabstimmung mit ausgewählten Tripeln zu einer überlegenen Leistung führt.
Räumliche Intelligenz ist entscheidend für multimodale große Sprachmodelle (MLLMs), die in der komplexen physischen Welt operieren. Bestehende Benchmarks untersuchen jedoch nur Beziehungen innerhalb einzelner Bilder und versagen somit darin, die multi-bildliche räumliche Argumentation zu bewerten, die reale Anwendungen erfordern. Wir stellen MMSI-Bench vor, einen VQA-Benchmark, der sich der multi-bildlichen räumlichen Intelligenz widmet. Sechs 3D-Vision-Forscher verbrachten mehr als 300 Stunden damit, 1.000 herausfordernde, eindeutige Multiple-Choice-Fragen aus über 120.000 Bildern sorgfältig zu erstellen, die jeweils mit sorgfältig gestalteten Ablenkern und einem schrittweisen Argumentationsprozess versehen sind. Wir führen umfangreiche Experimente durch und evaluieren gründlich 34 Open-Source- und proprietäre MLLMs, wobei wir eine große Kluft feststellen: Das stärkste Open-Source-Modell erreicht etwa 30 % Genauigkeit und OpenAIs o3-Reasoning-Modell erreicht 40 %, während Menschen 97 % erreichen. Diese Ergebnisse unterstreichen die anspruchsvolle Natur von MMSI-Bench und das erhebliche Potenzial für zukünftige Forschung. Durch die Nutzung der annotierten Argumentationsprozesse bieten wir auch eine automatisierte Fehleranalyse-Pipeline, die vier dominante Fehlermodi diagnostiziert, darunter (1) Verankerungsfehler, (2) Überlappungsabgleich- und Szenenrekonstruktionsfehler, (3) Situationsumwandlungsargumentationsfehler und (4) räumlich-logische Fehler, und wertvolle Einblicke für die Weiterentwicklung der multi-bildlichen räumlichen Intelligenz bietet. Projektseite: https://runsenxu.com/projects/MMSI_Bench.
Direct Preference Optimization (DPO) hat sich als Standardtechnik etabliert, um Sprachmodelle auf überwachte Weise mit menschlichen Präferenzen abzustimmen. Trotz ihres empirischen Erfolgs bleibt die theoretische Begründung hinter ihrer Log-Ratio-Belohnungsparametrisierung unvollständig. In dieser Arbeit schließen wir diese Lücke, indem wir die Differential Information Distribution (DID) nutzen: eine Verteilung über Token-Sequenzen, die die während der Policy-Updates gewonnene Information erfasst. Zunächst zeigen wir, dass, wenn Präferenzlabels die differentielle Information kodieren, die erforderlich ist, um eine Referenz-Policy in eine Ziel-Policy zu transformieren, die Log-Ratio-Belohnung in DPO als die einzig optimale Form für das Erlernen der Ziel-Policy durch Präferenzoptimierung hervorgeht. Dieses Ergebnis liefert auf natürliche Weise einen geschlossenen Ausdruck für die optimale Stichprobenverteilung über abgelehnte Antworten. Zweitens stellen wir fest, dass die Bedingung dafür, dass Präferenzen differentielle Information kodieren, grundlegend mit einer impliziten Annahme bezüglich log-marginal geordneter Policies verbunden ist – einem induktiven Bias, der weit verbreitet in der Präferenzoptimierung verwendet wird, jedoch bisher unerkannt blieb. Schließlich charakterisieren wir durch die Analyse der Entropie der DID, wie das Erlernen von differentieller Information mit niedriger Entropie die Policy-Verteilung verstärkt, während differentielle Information mit hoher Entropie einen Glättungseffekt induziert, was das Phänomen der Log-Likelihood-Verschiebung erklärt. Wir validieren unsere theoretischen Erkenntnisse in synthetischen Experimenten und erweitern sie auf reale Datensätze zur Befolgung von Anweisungen. Unsere Ergebnisse deuten darauf hin, dass das Erlernen von differentieller Information mit hoher Entropie entscheidend für die allgemeine Befolgung von Anweisungen ist, während das Erlernen von differentieller Information mit niedriger Entropie wissensintensives Frage-Antworten begünstigt. Insgesamt bietet unsere Arbeit eine vereinheitlichende Perspektive auf das DPO-Ziel, die Struktur von Präferenzdaten und die daraus resultierenden Policy-Verhaltensweisen durch die Linse der differentiellen Information.
Während Reinforcement Learning (RL) über Gedankenketten Sprachmodelle in Aufgaben wie Mathematik und Codierung erheblich vorangebracht hat, führt visuelles Denken zusätzliche Komplexität ein, indem es von Modellen verlangt, visuelle Aufmerksamkeit zu lenken, Wahrnehmungseingaben zu interpretieren und abstraktes Denken in räumliche Evidenz zu verankern. Wir stellen ViGoRL (Visually Grounded Reinforcement Learning) vor, ein Vision-Sprache-Modell, das mit RL trainiert wurde, um jeden Denkschritt explizit an spezifische visuelle Koordinaten zu binden. Inspiriert von der menschlichen visuellen Entscheidungsfindung, lernt ViGoRL, räumlich verankerte Denkspuren zu erzeugen, die die visuelle Aufmerksamkeit in jedem Schritt auf aufgabenrelevante Regionen lenken. Wenn eine feinkörnige Exploration erforderlich ist, ermöglicht unser neuartiges Multi-Turn-RL-Framework dem Modell, sich dynamisch in vorhergesagte Koordinaten hineinzuzoomen, während das Denken fortschreitet. Über eine Vielzahl von visuellen Denkbenchmarks hinweg – einschließlich SAT-2 und BLINK für räumliches Denken, V*bench für visuelle Suche sowie ScreenSpot und VisualWebArena für webbasierte Verankerung – übertrifft ViGoRL durchweg sowohl überwachtes Feinabstimmen als auch konventionelle RL-Baselines, denen explizite Verankerungsmechanismen fehlen. Die Einbindung von Multi-Turn-RL mit hereingezoomtem visuellem Feedback verbessert die Leistung von ViGoRL bei der Lokalisierung kleiner GUI-Elemente und der visuellen Suche signifikant und erreicht 86,4 % auf V*Bench. Darüber hinaus stellen wir fest, dass die Verankerung andere visuelle Verhaltensweisen wie Regionenexploration, verankerte Teilzielsetzung und visuelle Verifikation verstärkt. Schließlich zeigen menschliche Bewertungen, dass die visuellen Referenzen des Modells nicht nur räumlich präzise, sondern auch hilfreich für das Verständnis der Denkschritte des Modells sind. Unsere Ergebnisse zeigen, dass visuell verankertes RL ein starkes Paradigma ist, um Modelle mit allgemeinem visuellen Denken auszustatten.
Das Hauptziel der Post-Training-Quantisierung (PTQ) ist es, ein komprimiertes Modell zu erzeugen, dessen Ausgabeverteilung möglichst nahe an der des ursprünglichen Modells liegt. Um dies praktikabel zu erreichen, quantisieren fast alle LLM-PTQ-Algorithmen lineare Schichten, indem sie den unmittelbaren Aktivierungsfehler unabhängig minimieren. Dieses lokalisierte Ziel ignoriert jedoch den Einfluss nachfolgender Schichten, sodass dessen Reduzierung nicht zwangsläufig ein näherliegendes Modell liefert. In dieser Arbeit stellen wir Yet Another Quantization Algorithm (YAQA) vor, einen adaptiven Rundungsalgorithmus, der Kronecker-faktorisierte Approximationen der Hessian-Matrix jeder linearen Schicht in Bezug auf die vollständige KL-Divergenz des Modells verwendet. YAQA besteht aus zwei Komponenten: Kronecker-faktorisierten Skizzen der vollständigen schichtweisen Hessian-Matrix, die für LLMs mit hunderten Milliarden Parametern praktikabel berechnet werden können, und einem quantisierungsunabhängigen Rundungsalgorithmus, der diese Skizzen nutzt und mit theoretischen Garantien ausgestattet ist. Über eine breite Palette von Modellen und Quantisierern hinweg reduziert YAQA empirisch die KL-Divergenz zum ursprünglichen Modell um etwa 30 % und erreicht gleichzeitig Spitzenleistungen bei nachgelagerten Aufgaben.
Die Bewertung von Kreativität bleibt eine herausfordernde Grenze für große Sprachmodelle (LLMs). Aktuelle Bewertungsmethoden stützen sich stark auf ineffiziente und kostspielige menschliche Beurteilungen, was den Fortschritt bei der Verbesserung der maschinellen Kreativität behindert. Obwohl automatisierte Methoden existieren, die von psychologischen Tests bis hin zu heuristischen oder prompt-basierten Ansätzen reichen, mangelt es ihnen oft an Generalisierbarkeit oder Übereinstimmung mit menschlichen Urteilen. Um diese Probleme zu lösen, schlagen wir in diesem Artikel einen neuartigen paarweisen Vergleichsrahmen zur Bewertung von textueller Kreativität vor, der gemeinsame kontextuelle Anweisungen nutzt, um die Konsistenz der Bewertung zu verbessern. Wir stellen CreataSet vor, einen umfangreichen Datensatz mit über 100.000 menschlichen und über 1 Million synthetischen kreativen Anweisungs-Antwort-Paaren, die verschiedene offene Domänenaufgaben abdecken. Durch das Training auf CreataSet entwickeln wir einen LLM-basierten Bewerter namens CrEval. CrEval zeigt eine bemerkenswerte Überlegenheit gegenüber bestehenden Methoden in der Übereinstimmung mit menschlichen Urteilen. Experimentelle Ergebnisse unterstreichen die unverzichtbare Bedeutung der Integration von sowohl menschlich generierten als auch synthetischen Daten für das Training hochrobuster Bewerter und demonstrieren die praktische Nützlichkeit von CrEval bei der Steigerung der Kreativität von LLMs. Wir werden bald alle Daten, Code und Modelle öffentlich freigeben, um weitere Forschungen zu unterstützen.
In dieser Arbeit zeigen wir die Grenzen von visuellen Tokenizern und VAEs bei der Bewahrung feinkörniger Merkmale auf und schlagen einen Benchmark zur Bewertung der Rekonstruktionsleistung für zwei anspruchsvolle visuelle Inhalte vor: Text und Gesichter. Visuelle Tokenizer und VAEs haben die visuelle Generierung und multimodale Modellierung durch effizientere komprimierte oder quantisierte Bilddarstellungen erheblich vorangetrieben. Während sie jedoch Produktionsmodelle dabei unterstützen, den Rechenaufwand zu reduzieren, begrenzt der Informationsverlust durch die Bildkomprimierung grundlegend die Obergrenze der Qualität der visuellen Generierung. Um diese Obergrenze zu bewerten, konzentrieren wir uns auf die Bewertung rekonstruierter Text- und Gesichtsmerkmale, da diese typischerweise: 1) in kleineren Maßstäben existieren, 2) dichte und reichhaltige Texturen enthalten, 3) anfällig für Kollaps sind und 4) hochsensibel für das menschliche Sehen sind. Zunächst sammeln und kuratieren wir eine vielfältige Auswahl klarer Text- und Gesichtsbilder aus bestehenden Datensätzen. Im Gegensatz zu Ansätzen, die VLM-Modelle verwenden, setzen wir etablierte OCR- und Gesichtserkennungsmodelle zur Bewertung ein, um Genauigkeit zu gewährleisten und gleichzeitig einen außerordentlich ressourcenschonenden Bewertungsprozess zu erhalten, der <span style="font-weight: bold; color: rgb(214, 21, 21);">nur 2 GB Speicher und 4 Minuten</span> benötigt. Mit unserem Benchmark analysieren wir die Qualität der Text- und Gesichtsrekonstruktion über verschiedene Maßstäbe hinweg für unterschiedliche Bildtokenizer und VAEs. Unsere Ergebnisse zeigen, dass moderne visuelle Tokenizer nach wie vor Schwierigkeiten haben, feinkörnige Merkmale zu bewahren, insbesondere in kleineren Maßstäben. Wir erweitern diesen Bewertungsrahmen zudem auf Videos und führen eine umfassende Analyse von Video-Tokenizern durch. Darüber hinaus demonstrieren wir, dass traditionelle Metriken die Rekonstruktionsleistung für Gesichter und Texte nicht genau widerspiegeln, während unsere vorgeschlagenen Metriken eine effektive Ergänzung darstellen.
Große Sprachmodelle (LLMs) haben ein erhebliches Potenzial in wissenschaftlichen Disziplinen wie der Biomedizin gezeigt, insbesondere bei der Hypothesengenerierung, wo sie umfangreiche Literatur analysieren, Muster identifizieren und Forschungsrichtungen vorschlagen können. Eine zentrale Herausforderung besteht jedoch darin, die Wahrhaftigkeit der generierten Hypothesen zu bewerten, da die Überprüfung ihrer Genauigkeit oft erhebliche Zeit und Ressourcen erfordert. Darüber hinaus kann das Halluzinationsproblem in LLMs zur Generierung von Hypothesen führen, die plausibel erscheinen, aber letztendlich falsch sind, was ihre Zuverlässigkeit untergräbt. Um die systematische Untersuchung dieser Herausforderungen zu erleichtern, führen wir TruthHypo ein, einen Benchmark zur Bewertung der Fähigkeiten von LLMs bei der Generierung wahrheitsgetreuer biomedizinischer Hypothesen, und KnowHD, einen wissensbasierten Halluzinationsdetektor, um zu bewerten, wie gut Hypothesen in bestehendem Wissen verankert sind. Unsere Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, wahrheitsgetreue Hypothesen zu generieren. Durch die Analyse von Halluzinationen in den Denkschritten demonstrieren wir, dass die von KnowHD bereitgestellten Verankerungswerte als effektive Metrik dienen, um wahrheitsgetreue Hypothesen aus den vielfältigen Ausgaben von LLMs herauszufiltern. Menschliche Bewertungen bestätigen weiterhin den Nutzen von KnowHD bei der Identifizierung wahrheitsgetreuer Hypothesen und der Beschleunigung wissenschaftlicher Entdeckungen. Unsere Daten und der Quellcode sind unter https://github.com/Teddy-XiongGZ/TruthHypo verfügbar.
Wortqualitätsabschätzung (Word-level Quality Estimation, WQE) zielt darauf ab, feingranulare Fehlerbereiche in maschinell übersetzten Ausgaben automatisch zu identifizieren und findet vielfältige Anwendungen, unter anderem bei der Unterstützung von Übersetzern während des Post-Editing-Prozesses. Moderne WQE-Techniken sind oft aufwendig, da sie das Prompting großer Sprachmodelle oder das Ad-hoc-Training mit großen Mengen an manuell annotierten Daten erfordern. In dieser Arbeit untersuchen wir effiziente Alternativen, die jüngste Fortschritte in der Interpretierbarkeit von Sprachmodellen und der Unsicherheitsquantifizierung nutzen, um Übersetzungsfehler aus den inneren Abläufen von Übersetzungsmodellen zu identifizieren. In unserer Auswertung, die 14 Metriken über 12 Übersetzungsrichtungen hinweg umfasst, quantifizieren wir den Einfluss von Variationen in menschlichen Annotationen auf die Leistung der Metriken, indem wir mehrere Sätze von menschlichen Labels verwenden. Unsere Ergebnisse verdeutlichen das ungenutzte Potenzial unüberwachter Metriken, die Schwächen überwachter Methoden bei Unsicherheit in den Labels sowie die Anfälligkeit von Evaluierungspraktiken, die auf einzelnen Annotatoren basieren.
Classifier-Free Guidance (CFG) verbessert die Steuerbarkeit in generativen Modellen erheblich, indem es bedingte und unbedingte Vorhersagen interpoliert. Allerdings verwendet die Standard-CFG oft einen statischen unbedingten Eingabewert, der für iterative Generierungsprozesse, bei denen die Modellunsicherheit dynamisch variiert, suboptimal sein kann. Wir stellen Adaptive Classifier-Free Guidance (A-CFG) vor, eine neuartige Methode, die den unbedingten Eingabewert anpasst, indem sie das momentane Vorhersagevertrauen des Modells nutzt. Bei jedem Schritt eines iterativen (maskierten) Diffusionssprachmodells identifiziert A-CFG Tokens in der aktuell generierten Sequenz, für die das Modell ein geringes Vertrauen zeigt. Diese Tokens werden vorübergehend erneut maskiert, um einen dynamischen, lokalisierten unbedingten Eingabewert zu erzeugen. Dadurch konzentriert sich der korrigierende Einfluss der CFG gezielt auf Bereiche mit Unklarheiten, was zu einer effektiveren Steuerung führt. Wir integrieren A-CFG in ein modernes maskiertes Diffusionssprachmodell und demonstrieren dessen Wirksamkeit. Experimente auf verschiedenen Sprachgenerierungs-Benchmarks zeigen, dass A-CFG erhebliche Verbesserungen gegenüber der Standard-CFG erzielt, beispielsweise einen Zuwachs von 3,9 Punkten auf GPQA. Unsere Arbeit unterstreicht den Nutzen der dynamischen Anpassung von Steuerungsmechanismen an die Modellunsicherheit bei der iterativen Generierung.
Große Sprachmodelle (LLMs) haben aufgrund ihrer überlegenen Fähigkeiten im Verständnis und der Generierung natürlicher Sprache bemerkenswerte Leistungen bei Frage-Antwort-Aufgaben (QA) gezeigt. Allerdings stoßen LLM-basierte QA-Systeme bei komplexen QA-Aufgaben an Grenzen, was auf mangelnde Fähigkeiten im logischen Schlussfolgern, veraltetes Wissen und Halluzinationen zurückzuführen ist. In jüngster Zeit wurden mehrere Ansätze entwickelt, die LLMs und Wissensgraphen (KGs) für QA kombinieren, um diese Herausforderungen zu bewältigen. In dieser Übersichtsarbeit schlagen wir eine neue strukturierte Taxonomie vor, die die Methodik der Synthese von LLMs und KGs für QA nach den Kategorien der QA und der Rolle des KGs bei der Integration mit LLMs klassifiziert. Wir untersuchen systematisch die neuesten Fortschritte bei der Synthese von LLMs und KGs für QA und vergleichen und analysieren diese Ansätze hinsichtlich ihrer Stärken, Schwächen und Anforderungen an den KG. Anschließend ordnen wir die Ansätze den QA-Kategorien zu und diskutieren, wie diese Ansätze die Hauptherausforderungen verschiedener komplexer QA-Aufgaben adressieren. Abschließend fassen wir die Fortschritte, Evaluationsmetriken und Benchmark-Datensätze zusammen und heben offene Herausforderungen und Chancen hervor.