Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir veröffentlichen MiMo-VL-7B-SFT und MiMo-VL-7B-RL als Open Source, zwei leistungsstarke Vision-Language-Modelle, die state-of-the-art Leistung sowohl im allgemeinen visuellen Verständnis als auch im multimodalen Reasoning bieten. MiMo-VL-7B-RL übertrifft Qwen2.5-VL-7B in 35 von 40 evaluierten Aufgaben und erreicht 59,4 Punkte auf dem OlympiadBench, womit es Modelle mit bis zu 78B Parametern übertrifft. Für GUI-Grounding-Anwendungen setzt es mit 56,1 Punkten auf OSWorld-G einen neuen Standard und übertrifft sogar spezialisierte Modelle wie UI-TARS. Unser Training kombiniert ein vierstufiges Pre-Training (2,4 Billionen Tokens) mit Mixed On-policy Reinforcement Learning (MORL), das diverse Belohnungssignale integriert. Wir identifizieren die Bedeutung der Einbindung hochwertiger Reasoning-Daten mit langen Chain-of-Thought in die Pre-Training-Phasen sowie die Vorteile von gemischtem RL trotz der Herausforderungen bei der gleichzeitigen Optimierung über mehrere Domänen hinweg. Zudem tragen wir mit einem umfassenden Evaluationssuite, die über 50 Aufgaben abdeckt, zur Reproduzierbarkeit und Weiterentwicklung des Feldes bei. Die Modell-Checkpoints und die vollständige Evaluationssuite sind unter https://github.com/XiaomiMiMo/MiMo-VL verfügbar.
Inspiriert von den bemerkenswerten Fähigkeiten von Deepseek-R1 bei komplexen textbasierten Aufgaben, versuchen viele Arbeiten, ähnliche Fähigkeiten in Multimodalen Großen Sprachmodellen (MLLMs) zu fördern, indem sie direkt Verstärkungslernen (Reinforcement Learning, RL) anwenden. Dennoch gelingt es ihnen oft nicht, komplexes Denken zu aktivieren. In diesem Papier untersuchen wir nicht nur multimodales RL isoliert, sondern tauchen tiefer in aktuelle Trainingspipeline ein und identifizieren drei entscheidende Phänomene: 1) Eine effektive Cold-Start-Initialisierung ist entscheidend, um das Denkvermögen von MLLMs zu verbessern. Interessanterweise stellen wir fest, dass die Initialisierung mit sorgfältig ausgewählten Textdaten allein zu einer Leistung führen kann, die viele aktuelle multimodale Denkmodelle übertrifft, noch bevor multimodales RL eingesetzt wird. 2) Standard-GRPO, das auf multimodales RL angewendet wird, leidet unter Gradientenstagnation, was die Trainingsstabilität und Leistung beeinträchtigt. 3) Ein anschließendes textbasiertes RL-Training, das auf die multimodale RL-Phase folgt, verbessert das multimodale Denken weiter. Dieser gestufte Trainingsansatz balanciert effektiv die Wahrnehmungsverankerung und die Entwicklung kognitiven Denkens. Durch die Einbeziehung der oben genannten Erkenntnisse und die Lösung von Problemen im multimodalen RL führen wir ReVisual-R1 ein, das einen neuen State-of-the-art unter den Open-Source-7B-MLLMs auf anspruchsvollen Benchmarks wie MathVerse, MathVision, WeMath, LogicVista, DynaMath sowie den herausfordernden AIME2024 und AIME2025 erreicht.
Als Teil eines verkörperten Agenten werden Large Language Models (LLMs) typischerweise für die Verhaltensplanung basierend auf natürlichen Sprachanweisungen des Benutzers eingesetzt. Die Bewältigung von mehrdeutigen Anweisungen in realen Umgebungen bleibt jedoch eine Herausforderung für LLMs. Es wurden verschiedene Methoden zur Erkennung von Aufgabenmehrdeutigkeit vorgeschlagen. Es ist jedoch schwierig, sie zu vergleichen, da sie auf unterschiedlichen Datensätzen getestet werden und es keinen universellen Benchmark gibt. Aus diesem Grund schlagen wir AmbiK (Ambiguous Tasks in Kitchen Environment) vor, einen vollständig textuellen Datensatz von mehrdeutigen Anweisungen, die an einen Roboter in einer Küchenumgebung gerichtet sind. AmbiK wurde mit Unterstützung von LLMs erstellt und ist von Menschen validiert. Es umfasst 1000 Paare von mehrdeutigen Aufgaben und ihren eindeutigen Gegenstücken, kategorisiert nach Mehrdeutigkeitstyp (Menschliche Präferenzen, Allgemeinwissen, Sicherheit), mit Umgebungsbeschreibungen, Klärungsfragen und -antworten, Benutzerabsichten und Aufgabenplänen, insgesamt 2000 Aufgaben. Wir hoffen, dass AmbiK Forschern ermöglichen wird, eine einheitliche Vergleichbarkeit von Methoden zur Mehrdeutigkeitserkennung durchzuführen. AmbiK ist verfügbar unter https://github.com/cog-model/AmbiK-dataset.
Reasoning-Modelle haben auf vielen Benchmarks, die Mathematik, Code und Wissenschaft betreffen, rasante Fortschritte gemacht. Dennoch gibt es noch viele offene Fragen bezüglich der besten Trainingsmethoden für Reasoning, da state-of-the-art Modelle oft auf proprietären Datensätzen basieren, über die nur wenig bis keine öffentlichen Informationen verfügbar sind. Um dies zu adressieren, hat das OpenThoughts-Projekt das Ziel, Open-Source-Datensätze für das Training von Reasoning-Modellen zu erstellen. Nach ersten Erkundungen führte unser OpenThoughts2-1M-Datensatz zu OpenThinker2-32B, dem ersten Modell, das mit öffentlichen Reasoning-Daten trainiert wurde und auf standardisierten Reasoning-Benchmarks wie AIME und LiveCodeBench mit DeepSeek-R1-Distill-32B gleichzieht. Anschließend verbesserten wir unseren Datensatz weiter, indem wir systematisch jeden Schritt unserer Daten-Generierungs-Pipeline mit über 1.000 kontrollierten Experimenten untersuchten, was zu OpenThoughts3 führte. Durch die Skalierung der Pipeline auf 1,2 Millionen Beispiele und die Verwendung von QwQ-32B als Lehrer-Modell entstand unser OpenThinker3-7B-Modell, das state-of-the-art Ergebnisse erzielt: 53 % auf AIME 2025, 51 % auf LiveCodeBench 06/24–01/25 und 54 % auf GPQA Diamond. Alle unsere Datensätze und Modelle sind auf https://openthoughts.ai verfügbar.
Die Erzeugung von Langtexten bleibt eine bedeutende Herausforderung für große Sprachmodelle (LLMs), insbesondere in Bezug auf die Aufrechterhaltung von Kohärenz, die Sicherstellung logischer Konsistenz und die Bewahrung der Textqualität bei zunehmender Sequenzlänge. Um diese Einschränkungen zu adressieren, schlagen wir SuperWriter-Agent vor, ein agentenbasiertes Framework, das darauf abzielt, die Qualität und Konsistenz der Langtextgenerierung zu verbessern. SuperWriter-Agent führt explizite strukturierte Denkprozesse durch Planungs- und Verfeinerungsphasen in den Generierungsprozess ein und leitet das Modell an, einen bewussteren und kognitiv fundierten Prozess zu durchlaufen, der dem eines professionellen Schriftstellers ähnelt. Basierend auf diesem Framework erstellen wir einen überwachten Feinabstimmungsdatensatz, um ein 7B SuperWriter-LM zu trainieren. Wir entwickeln weiterhin ein hierarchisches Direct Preference Optimization (DPO)-Verfahren, das Monte Carlo Tree Search (MCTS) verwendet, um abschließende Qualitätsbewertungen zu propagieren und jeden Generierungsschritt entsprechend zu optimieren. Empirische Ergebnisse über diverse Benchmarks hinweg zeigen, dass SuperWriter-LM state-of-the-art Leistungen erzielt und sowohl in automatisierten als auch in menschlichen Bewertungen größere Baseline-Modelle übertrifft. Darüber hinaus demonstrieren umfassende Ablationsstudien die Wirksamkeit des hierarchischen DPO und unterstreichen den Wert der Einbindung strukturierter Denkschritte zur Verbesserung der Qualität der Langtextgenerierung.
Bestehende Frameworks zur Bewertung von Langkontext-Sprachmodellen (LCLM) lassen sich grob in realweltliche und synthetische Aufgaben kategorisieren. Trotz ihres Nutzens sind beide Ansätze mit bestimmten intrinsischen Einschränkungen verbunden. Realweltliche Aufgaben sind zu komplex, um sie zu interpretieren oder zu charakterisieren, und anfällig für Datenkontamination. Im Gegensatz dazu verwenden synthetische Aufgaben oft das „Nadel-im-Heuhaufen“-Format (NIAH), bei dem ein Mangel an Kohärenz zwischen der „Nadel“ und dem „Heuhaufen“ ihre Gültigkeit als Stellvertreter für realistische Anwendungen beeinträchtigt. Als Antwort auf diese Herausforderungen postulieren wir, dass ein ideales Langkontext-Bewertungsframework durch drei wesentliche Merkmale gekennzeichnet sein sollte: nahtloser Kontext, kontrollierbare Umgebung und fundierte Bewertung. Diese Studie stellt LongBioBench vor, einen neuartigen Benchmark, der künstlich generierte Biografien als kontrollierte Umgebung zur Bewertung von LCLMs in den Dimensionen Verständnis, logisches Denken und Vertrauenswürdigkeit nutzt. Unsere experimentelle Bewertung, die insgesamt 18 LCLMs umfasst, zeigt, dass die meisten Modelle weiterhin Defizite im semantischen Verständnis und im elementaren logischen Denken über abgerufene Ergebnisse aufweisen und mit zunehmender Kontextlänge weniger vertrauenswürdig sind. Unsere weitere Analyse deutet darauf hin, dass einige Designentscheidungen, die von bestehenden synthetischen Benchmarks verwendet werden, wie kontextuelle Nicht-Kohärenz, numerische Nadeln und das Fehlen von Ablenkern, sie anfällig dafür machen, die Langkontext-Fähigkeiten der Modelle zu testen. Darüber hinaus zeigen wir auch, dass das kontinuierliche Vortraining für Langkontexte in erster Linie die RoPE-Einbettung anpasst, um erweiterte Kontextlängen zu berücksichtigen. Zusammenfassend erreicht LongBioBench im Vergleich zu früheren synthetischen Benchmarks einen besseren Kompromiss zwischen der Nachahmung authentischer Sprachaufgaben und der Aufrechterhaltung der Kontrollierbarkeit und ist hochgradig interpretierbar und konfigurierbar.
Die sequenzielle Struktur von Videos stellt eine Herausforderung für die Fähigkeit multimodaler großer Sprachmodelle (MLLMs) dar, Beweise über mehrere Frames hinweg zu lokalisieren und multimodales Schlussfolgern durchzuführen. Bisherige Video-Benchmarks konzentrieren sich jedoch hauptsächlich auf Verständnisaufgaben, die lediglich erfordern, dass Modelle die in der Frage erwähnten Frames (im Folgenden als "Frage-Frames" bezeichnet) abgleichen und einige benachbarte Frames wahrnehmen. Um diese Lücke zu schließen, schlagen wir MMR-V vor: einen Benchmark für tiefgreifendes multimodales Schlussfolgern in Videos. Der Benchmark zeichnet sich durch folgende Merkmale aus: (1) Langstreckiges, multi-Frame-Schlussfolgern: Modelle müssen Beweisframes analysieren, die weit vom Frage-Frame entfernt sein können. (2) Über die Wahrnehmung hinaus: Fragen können nicht allein durch direkte Wahrnehmung beantwortet werden, sondern erfordern das Schlussfolgern über versteckte Informationen. (3) Zuverlässigkeit: Alle Aufgaben sind manuell annotiert und beziehen sich auf umfangreiches reales Nutzerverständnis, um mit allgemeinen Wahrnehmungen übereinzustimmen. (4) Verwirrungspotenzial: Sorgfältig gestaltete Ablenker-Annotationsstrategien, um Modellabkürzungen zu reduzieren. MMR-V besteht aus 317 Videos und 1.257 Aufgaben. Unsere Experimente zeigen, dass aktuelle Modelle immer noch Schwierigkeiten mit multimodalen Schlussfolgerungen haben; selbst das leistungsstärkste Modell, o4-mini, erreicht nur eine Genauigkeit von 52,5 %. Zudem bringen aktuelle Strategien zur Verbesserung des Schlussfolgerns (Chain-of-Thought und Skalierung der Testzeit-Ressourcen) nur begrenzte Fortschritte. Eine weitere Analyse zeigt, dass der für multimodales Schlussfolgern erforderliche CoT sich von dem bei textuellen Schlussfolgerungen unterscheidet, was teilweise die begrenzten Leistungssteigerungen erklärt. Wir hoffen, dass MMR-V weitere Forschungen zur Verbesserung multimodaler Schlussfolgerungsfähigkeiten inspirieren kann.
Die Entwicklung großer Sprachmodelle (LLMs) hängt von einer vertrauenswürdigen Evaluierung ab. Die meisten aktuellen Evaluierungen stützen sich jedoch auf öffentliche Benchmarks, die anfällig für Datenkontaminationsprobleme sind, was die Fairness erheblich beeinträchtigt. Frühere Forschungen haben sich auf die Konstruktion dynamischer Benchmarks konzentriert, um Kontamination zu adressieren. Die kontinuierliche Erstellung neuer Benchmarks ist jedoch kostspielig und zyklisch. In dieser Arbeit zielen wir darauf ab, Kontamination zu bekämpfen, indem wir die Mechanismen kontaminierter Modelle selbst analysieren. Durch unsere Experimente entdecken wir, dass die Überschätzung kontaminierter Modelle wahrscheinlich darauf zurückzuführen ist, dass Parameter während des Trainings Abkürzungslösungen erwerben. Wir schlagen weiterhin eine neuartige Methode zur Identifizierung von Abkürzungsneuronen durch vergleichende und kausale Analyse vor. Aufbauend darauf führen wir eine Evaluierungsmethode namens „Shortcut Neuron Patching“ ein, um Abkürzungsneuronen zu unterdrücken. Experimente bestätigen die Wirksamkeit unseres Ansatzes bei der Minderung von Kontamination. Zusätzlich zeigen unsere Evaluierungsergebnisse eine starke lineare Korrelation mit MixEval, einem kürzlich veröffentlichten vertrauenswürdigen Benchmark, und erreichen einen Spearman-Koeffizienten (rho) von über 0,95. Diese hohe Korrelation zeigt, dass unsere Methode die wahren Fähigkeiten der Modelle eng offenbart und vertrauenswürdig ist. Wir führen weitere Experimente durch, um die Generalisierbarkeit unserer Methode über verschiedene Benchmarks und Hyperparameter-Einstellungen hinweg zu demonstrieren. Code: https://github.com/GaryStack/Trustworthy-Evaluation
Reale Anwendungen wie Videospiele und Virtual Reality erfordern oft die Fähigkeit, 3D-Szenen zu modellieren, die Benutzer entlang benutzerdefinierter Kamerapfade erkunden können. Während bedeutende Fortschritte bei der Generierung von 3D-Objekten aus Text oder Bildern erzielt wurden, bleibt die Erstellung von langstreckigen, 3D-konsistenten, erkundbaren 3D-Szenen ein komplexes und herausforderndes Problem. In dieser Arbeit präsentieren wir Voyager, ein neuartiges Video-Diffusions-Framework, das weltkonsistente 3D-Punktwolken-Sequenzen aus einem einzelnen Bild mit benutzerdefiniertem Kamerapfad generiert. Im Gegensatz zu bestehenden Ansätzen erreicht Voyager eine end-to-end Szenengenerierung und -rekonstruktion mit inhärenter Konsistenz über Frames hinweg, wodurch die Notwendigkeit von 3D-Rekonstruktionspipelines (z.B. Structure-from-Motion oder Multi-View Stereo) entfällt. Unsere Methode integriert drei Schlüsselkomponenten: 1) Weltkonsistente Video-Diffusion: Eine einheitliche Architektur, die gemeinsam ausgerichtete RGB- und Tiefenvideo-Sequenzen generiert, basierend auf bestehender Weltbeobachtung, um globale Kohärenz zu gewährleisten. 2) Langstreckige Welterkundung: Ein effizienter Welt-Cache mit Punktausdünnung und ein autoregressiver Inferenzprozess mit glatter Videoabtastung für iterative Szenenerweiterung mit kontextbewusster Konsistenz. 3) Skalierbare Daten-Engine: Eine Videorekonstruktionspipeline, die die Kameraposenschätzung und metrische Tiefenvorhersage für beliebige Videos automatisiert, was die groß angelegte, vielfältige Kuratierung von Trainingsdaten ohne manuelle 3D-Annotationen ermöglicht. Zusammengenommen führen diese Entwürfe zu einer deutlichen Verbesserung gegenüber bestehenden Methoden in Bezug auf visuelle Qualität und geometrische Genauigkeit, mit vielseitigen Anwendungsmöglichkeiten.
Während Diffusionsmodelle bemerkenswerte Erfolge in der Text-zu-Bild-Generierung erzielt haben, stoßen sie bei der instruktionsgesteuerten Bildbearbeitung auf erhebliche Herausforderungen. Unsere Forschung hebt eine zentrale Schwierigkeit hervor: Diese Modelle haben insbesondere Probleme mit strukturell inkonsistenten Bearbeitungen, die erhebliche Layoutänderungen beinhalten. Um diese Lücke zu schließen, stellen wir Image Editing As Programs (IEAP) vor, ein einheitliches Bildbearbeitungsframework, das auf der Diffusion Transformer (DiT)-Architektur basiert. Im Kern betrachtet IEAP die instruktionsbasierte Bearbeitung durch eine reduktionistische Linse, indem komplexe Bearbeitungsanweisungen in Sequenzen atomarer Operationen zerlegt werden. Jede Operation wird über einen leichtgewichtigen Adapter implementiert, der denselben DiT-Backbone teilt und für einen spezifischen Bearbeitungstyp spezialisiert ist. Diese Operationen, die von einem auf einem Vision-Language-Modell (VLM) basierenden Agenten programmiert werden, unterstützen gemeinsam beliebige und strukturell inkonsistente Transformationen. Durch die Modularisierung und Sequenzierung von Bearbeitungen auf diese Weise generalisiert IEAP robust über eine breite Palette von Bearbeitungsaufgaben hinweg, von einfachen Anpassungen bis hin zu erheblichen strukturellen Veränderungen. Umfangreiche Experimente zeigen, dass IEAP state-of-the-art-Methoden auf Standard-Benchmarks in verschiedenen Bearbeitungsszenarien deutlich übertrifft. In diesen Bewertungen liefert unser Framework überlegene Genauigkeit und semantische Treue, insbesondere bei komplexen, mehrstufigen Anweisungen. Der Code ist verfügbar unter https://github.com/YujiaHu1109/IEAP.
Große Sprachmodelle (LLMs) haben oft Schwierigkeiten mit Visualisierungsaufgaben wie dem Erstellen von Diagrammen und Grafiken, bei denen der Erfolg sowohl von der Korrektheit des Codes als auch von der visuellen Semantik abhängt. Bestehende Instruction-Tuning-Datensätze bieten keine ausführungsbasierte Überwachung und nur begrenzte Unterstützung für iterative Code-Korrekturen, was zu fragiler und unzuverlässiger Diagrammerstellung führt. Wir präsentieren VisCode-200K, einen groß angelegten Instruction-Tuning-Datensatz für Python-basierte Visualisierung und Selbstkorrektur. Er enthält über 200.000 Beispiele aus zwei Quellen: (1) validierte Plotting-Codes aus Open-Source-Repositories, gepaart mit natürlichen Sprachanweisungen und gerenderten Diagrammen; und (2) 45.000 mehrstufige Korrekturdialoge aus Code-Feedback, die es Modellen ermöglichen, fehlerhaften Code mithilfe von Laufzeit-Feedback zu überarbeiten. Wir feintunen Qwen2.5-Coder-Instruct auf VisCode-200K, um VisCoder zu erstellen, und evaluieren es auf PandasPlotBench. VisCoder übertrifft starke Open-Source-Baselines deutlich und nähert sich der Leistung proprietärer Modelle wie GPT-4o-mini an. Darüber hinaus führen wir ein Selbstdebug-Evaluationsprotokoll ein, um iterative Reparaturen zu bewerten, und demonstrieren die Vorteile des feedbackgesteuerten Lernens für die Erstellung von ausführbarem, visuell präzisem Code.
Obwohl diffusionsbasierte Modelle hochwertige und hochauflösende Videosequenzen aus textuellen oder bildlichen Eingaben generieren können, fehlt ihnen die explizite Integration geometrischer Hinweise bei der Steuerung der Szenenbeleuchtung und des visuellen Erscheinungsbilds über die Frames hinweg. Um diese Einschränkung zu überwinden, schlagen wir IllumiCraft vor, ein end-to-end Diffusionsframework, das drei komplementäre Eingaben akzeptiert: (1) High-Dynamic-Range (HDR)-Videokarten zur detaillierten Lichtsteuerung; (2) synthetisch neu beleuchtete Frames mit zufälligen Beleuchtungsänderungen (optional gepaart mit einem statischen Hintergrundreferenzbild), um Erscheinungshinweise zu liefern; und (3) 3D-Punktspuren, die präzise 3D-Geometrieinformationen erfassen. Durch die Integration der Beleuchtungs-, Erscheinungs- und Geometriehinweise innerhalb einer einheitlichen Diffusionsarchitektur generiert IllumiCraft zeitlich kohärente Videos, die mit benutzerdefinierten Eingabeaufforderungen übereinstimmen. Es unterstützt hintergrundbedingte und textbedingte Videoneubeleuchtung und bietet eine bessere Detailtreue als bestehende Methoden zur kontrollierbaren Videogenerierung. Projektseite: https://yuanze-lin.me/IllumiCraft_page
Wir haben beobachtet, dass leistungsstarke LLMs wie Qwen-Math, MiMo und Phi-4 ein immenses Reasoning-Potenzial besitzen, das aus der Pre-Training-Phase stammt. Durch Reinforcement Learning (RL) können diese Modelle ihre Fähigkeiten bei Reasoning-Aufgaben erheblich verbessern. Aktuelle Studien haben gezeigt, dass sogar RL anhand eines einzigen Problems das Reasoning-Potenzial dieser Modelle freisetzen kann. Allerdings ist RL nicht nur kostspielig, sondern auch instabil. Selbst One-Shot-RL erfordert Hunderte von GPU-Stunden. Dies wirft eine entscheidende Frage auf: Gibt es eine effizientere Methode, um das Reasoning-Potenzial dieser leistungsfähigen Basis-LLMs freizusetzen? In dieser Arbeit zeigen wir, dass Critique Fine-Tuning (CFT) anhand nur eines Problems das Reasoning-Potenzial von LLMs effektiv freisetzen kann. Unsere Methode konstruiert Kritikdaten, indem vielfältige, modellgenerierte Lösungen für ein einzelnes Problem gesammelt und von leistungsstarken Lehrer-LLMs detaillierte Kritiken bereitgestellt werden. Wir fine-tunen Modelle der Qwen- und Llama-Familie mit Parametergrößen von 1,5B bis 14B anhand der CFT-Daten und beobachten signifikante Leistungssteigerungen bei verschiedenen Reasoning-Aufgaben. Beispielsweise zeigt Qwen-Math-7B-CFT nach nur 5 GPU-Stunden Training eine durchschnittliche Verbesserung von 15 % bei sechs mathematischen Benchmarks und 16 % bei drei logischen Reasoning-Benchmarks. Diese Ergebnisse sind vergleichbar mit oder übertreffen sogar die Ergebnisse von RL bei 20-fach geringerem Rechenaufwand. Ablationsstudien belegen die Robustheit von One-Shot-CFT über verschiedene Prompt-Probleme hinweg. Diese Ergebnisse unterstreichen One-Shot-CFT als eine einfache, allgemeine und recheneffiziente Methode, um die Reasoning-Fähigkeiten moderner LLMs freizusetzen.
Wir stellen Psi-Sampler vor, ein SMC-basiertes Framework, das eine pCNL-basierte Initialpartikel-Sampling-Methode für eine effektive Inferenzzeit-Belohnungsausrichtung mit einem score-basierten generativen Modell integriert. Die Inferenzzeit-Belohnungsausrichtung mit score-basierten generativen Modellen hat in letzter Zeit erheblich an Bedeutung gewonnen, im Zuge eines breiteren Paradigmenwechsels von der Vor- zur Nachtrainingsoptimierung. Kern dieses Trends ist die Anwendung von Sequential Monte Carlo (SMC) auf den Denoising-Prozess. Bisherige Methoden initialisieren Partikel jedoch typischerweise aus der Gaußschen Prior-Verteilung, die belohnungsrelevante Regionen unzureichend erfasst und zu einer reduzierten Sampling-Effizienz führt. Wir zeigen, dass die Initialisierung aus der belohnungsbewussten Posterior-Verteilung die Ausrichtungsleistung signifikant verbessert. Um Posterior-Sampling in hochdimensionalen latenten Räumen zu ermöglichen, führen wir den präkonditionierten Crank-Nicolson-Langevin (pCNL)-Algorithmus ein, der dimensionsrobuste Vorschläge mit gradienteninformierter Dynamik kombiniert. Dieser Ansatz ermöglicht effizientes und skalierbares Posterior-Sampling und verbessert die Leistung kontinuierlich über verschiedene Belohnungsausrichtungsaufgaben hinweg, einschließlich Layout-zu-Bild-Generierung, mengenbewusste Generierung und ästhetische Präferenzgenerierung, wie in unseren Experimenten gezeigt wird.
Große Sprachmodelle (LLMs) und multimodale LLMs haben vielversprechende Fähigkeiten für die SVG-Verarbeitung gezeigt, doch bestehende Benchmarks leiden unter begrenzter Abdeckung realer Anwendungsfälle, fehlender Komplexitätsstratifikation und fragmentierten Evaluationsparadigmen. Wir stellen SVGenius vor, einen umfassenden Benchmark, der 2.377 Abfragen über drei progressive Dimensionen umfasst: Verständnis, Bearbeitung und Generierung. Basierend auf realen Daten aus 24 Anwendungsdomänen mit systematischer Komplexitätsstratifikation evaluiert SVGenius Modelle durch 8 Aufgabenkategorien und 18 Metriken. Wir bewerten 22 Mainstream-Modelle, die verschiedene Skalen, Architekturen, Trainingsparadigmen und Zugänglichkeitsstufen abdecken. Unsere Analyse zeigt, dass proprietäre Modelle Open-Source-Modelle deutlich übertreffen, jedoch alle Modelle eine systematische Leistungsverschlechterung mit zunehmender Komplexität aufweisen, was auf grundlegende Beschränkungen aktueller Ansätze hinweist; dennoch erweist sich reasoning-verstärktes Training als effektiver als reine Skalierung, um diese Beschränkungen zu überwinden, obwohl Stiltransfer die anspruchsvollste Fähigkeit über alle Modelltypen hinweg bleibt. SVGenius etabliert den ersten systematischen Evaluationsrahmen für die SVG-Verarbeitung und liefert entscheidende Einblicke für die Entwicklung leistungsfähigerer Vektorgrafikmodelle und die Weiterentwicklung automatisierter Grafikdesignanwendungen. Anhang und ergänzende Materialien (einschließlich aller Daten und Codes) sind verfügbar unter https://zju-real.github.io/SVGenius.
Wir präsentieren LayerFlow, eine einheitliche Lösung für die schichtbewusste Videogenerierung. Basierend auf schichtspezifischen Eingabeaufforderungen generiert LayerFlow Videos für den transparenten Vordergrund, den sauberen Hintergrund und die gemischte Szene. Es unterstützt auch vielseitige Varianten wie die Zerlegung eines gemischten Videos oder die Generierung des Hintergrunds für einen gegebenen Vordergrund und umgekehrt. Ausgehend von einem Text-zu-Video-Diffusionstransformer organisieren wir die Videos für verschiedene Schichten als Unterclips und nutzen Schicht-Einbettungen, um jeden Clip und die entsprechenden schichtspezifischen Eingabeaufforderungen zu unterscheiden. Auf diese Weise unterstützen wir nahtlos die genannten Varianten in einem einheitlichen Framework. Aufgrund des Mangels an hochwertigen schichtweisen Trainingsvideos entwickeln wir eine mehrstufige Trainingsstrategie, um statische Bilder mit hochwertigen Schichtannotationen zu integrieren. Konkret trainieren wir zunächst das Modell mit qualitativ minderwertigen Videodaten. Anschließend stimmen wir ein Motion LoRA ab, um das Modell mit statischen Bildern kompatibel zu machen. Danach trainieren wir das Content LoRA auf einer Mischung aus Bilddaten mit hochwertigen geschichteten Bildern sowie kopierten Videodaten. Während der Inferenz entfernen wir das Motion LoRA, um flüssige Videos mit den gewünschten Schichten zu generieren.
Direct Preference Optimization (DPO) wurde kürzlich als Nachbearbeitungstechnik für Text-zu-Video-Diffusionsmodelle eingesetzt. Um Trainingsdaten zu erhalten, werden Annotatoren gebeten, Präferenzen zwischen zwei Videos anzugeben, die aus unabhängigem Rauschen generiert wurden. Dieser Ansatz verhindert jedoch feinkörnige Vergleiche, und wir weisen darauf hin, dass er die Annotatoren zu Clips mit geringer Bewegung verleitet, da diese oft weniger visuelle Artefakte enthalten. In dieser Arbeit stellen wir DenseDPO vor, eine Methode, die diese Schwächen durch drei Beiträge adressiert. Erstens erstellen wir jedes Videopaar für DPO durch Entrauschen beschädigter Kopien eines Ground-Truth-Videos. Dies führt zu ausgerichteten Paaren mit ähnlichen Bewegungsstrukturen, die sich jedoch in lokalen Details unterscheiden, wodurch die Bewegungsverzerrung effektiv neutralisiert wird. Zweitens nutzen wir die daraus resultierende zeitliche Ausrichtung, um Präferenzen auf kurzen Segmenten statt auf gesamten Clips zu kennzeichnen, was ein dichteres und präziseres Lernsignal liefert. Mit nur einem Drittel der annotierten Daten verbessert DenseDPO die Bewegungsgenerierung deutlich gegenüber dem herkömmlichen DPO, während es in Textausrichtung, visueller Qualität und zeitlicher Konsistenz gleichauf bleibt. Schließlich zeigen wir, dass DenseDPO die automatische Präferenzannotation mit Standard-Vision-Language-Models (VLMs) ermöglicht: GPT sagt segmentweise Präferenzen ähnlich wie speziell feinabgestimmte Video-Belohnungsmodelle genau voraus, und DenseDPO, das mit diesen Labels trainiert wird, erreicht eine Leistung, die nahe an der Verwendung menschlicher Labels liegt.
Kürzlich haben große Sprachmodelle (LLMs) bedeutende Fortschritte in IQ-bezogenen Domänen erzielt, die sorgfältiges Denken erfordern, wie Mathematik und Programmierung. Die Verbesserung der kognitiven Entwicklung von LLMs in sozialen Domänen, insbesondere aus einer Post-Training-Perspektive, bleibt jedoch weitgehend unerforscht. In Anerkennung der Tatsache, dass die soziale Welt einem eigenen Zeitverlauf folgt und eine reichhaltigere Mischung kognitiver Modi erfordert (von intuitiven Reaktionen (System 1) und oberflächlichem Denken bis hin zu bewusstem Denken (System 2)) als die Mathematik, die sich hauptsächlich auf System 2 Kognition (sorgfältiges, schrittweises Schlussfolgern) stützt, führen wir Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) ein, um die soziale Intelligenz von LLMs zu verbessern. In unseren Experimenten untersuchen wir systematisch die Verbesserung der sozialen Intelligenz von LLMs und validieren die Wirksamkeit der TimeHC-RL-Methode durch fünf weitere Post-Training-Paradigmen und zwei Testzeit-Interventionsparadigmen auf acht Datensätzen mit unterschiedlichen Datenmustern. Die experimentellen Ergebnisse zeigen die Überlegenheit unserer vorgeschlagenen TimeHC-RL-Methode im Vergleich zur weit verbreiteten System 2 RL-Methode. Sie verleiht dem 7B-Backbone-Modell Flügel und ermöglicht es, mit der Leistung fortschrittlicher Modelle wie DeepSeek-R1 und OpenAI-O3 zu konkurrieren. Darüber hinaus hat die systematische Untersuchung aus der Perspektive von Post-Training und Testzeit-Interventionen zur Verbesserung der sozialen Intelligenz von LLMs mehrere wertvolle Erkenntnisse zutage gefördert.
Effiziente Langsequenzgenerierung stellt eine entscheidende Herausforderung für große Sprachmodelle dar. Während aktuelle sparsame Dekodierungsmethoden die Effizienz verbessern, leiden sie unter einer Fehlausrichtung des KV-Caches, bei der sich Approximationsfehler ansammeln und die Generierungsqualität beeinträchtigen. In dieser Arbeit schlagen wir Rectified Sparse Attention (ReSA) vor, eine einfache, aber effektive Methode, die block-sparse Attention mit periodischer dichter Rektifizierung kombiniert. Durch das Aktualisieren des KV-Caches in festen Intervallen mittels eines dichten Vorwärtsdurchlaufs begrenzt ReSA die Fehlerakkumulation und bewahrt die Ausrichtung mit der Vortrainingsverteilung. Experimente in den Bereichen mathematisches Denken, Sprachmodellierung und Retrieval-Aufgaben zeigen, dass ReSA eine nahezu verlustfreie Generierungsqualität bei deutlich verbesserter Effizienz erreicht. Insbesondere ermöglicht ReSA eine bis zu 2,42-fache End-to-End-Beschleunigung bei der Dekodierung von Sequenzen mit einer Länge von 256K, was es zu einer praktischen Lösung für skalierbare Langkontext-Inferenz macht. Der Code ist verfügbar unter https://aka.ms/ReSA-LM.
Große Sprachmodell-Agenten (LLM-Agenten) revolutionieren die Spieleindustrie, insbesondere durch intelligente und menschenähnliche Spielfiguren. Bisherige Spiele-Benchmarks erfüllen jedoch nicht die praktischen Anforderungen: Es fehlen Bewertungen der vielfältigen Fähigkeiten von LLMs über verschiedene Spielgenres hinweg, Untersuchungen von agentenbasierten Modulen, die für komplexes Gameplay entscheidend sind, sowie Feinabstimmungsdatensätze, um vortrainierte LLMs in Spielagenten zu integrieren. Um diese Lücken zu schließen, präsentieren wir \benchname{}, einen grundlegenden Benchmark, der darauf abzielt, LLM-Agenten in verschiedenen realen Videospielen zu trainieren und zu bewerten. Im Gegensatz zu bestehenden Benchmarks umfasst Orak 12 beliebte Videospiele aus allen Hauptgenres, was umfassende Studien der LLM-Fähigkeiten und der für komplexe Spielszenarien essenziellen agentenbasierten Module ermöglicht. Um eine konsistente Bewertung von LLMs zu unterstützen, führen wir eine Plug-and-Play-Schnittstelle basierend auf dem Model Context Protocol (MCP) ein, die es LLMs ermöglicht, nahtlos mit Spielen zu interagieren und agentenbasierte Module zu steuern. Zusätzlich schlagen wir einen Feinabstimmungsdatensatz vor, der aus LLM-Spielverläufen über verschiedene Spielgenres besteht. Orak bietet ein umfassendes Bewertungsframework, das allgemeine Spielpunktestände, LLM-Kampfarenen sowie detaillierte Analysen des visuellen Eingabezustands, der agentenbasierten Strategien und der Feinabstimmungseffekte umfasst, und legt damit den Grundstein für die Entwicklung generischer Spielagenten. Der Code ist verfügbar unter https://github.com/krafton-ai/Orak.
In diesem Artikel präsentieren wir TalkingMachines – ein effizientes Framework, das vortrainierte Video-Generierungsmodelle in Echtzeit-Audio-gesteuerte Charakteranimatoren transformiert. TalkingMachines ermöglicht natürliche Konversationserlebnisse durch die Integration eines Audio-Large-Language-Models (LLM) mit unserem Video-Generierungs-Grundlagenmodell. Unsere primären Beiträge umfassen: (1) Wir adaptieren ein vortrainiertes SOTA Image-to-Video DiT in ein Audio-gesteuertes Avatar-Generierungsmodell mit 18 Milliarden Parametern; (2) Wir ermöglichen unendliches Video-Streaming ohne Fehlerakkumulation durch asymmetrische Wissensdestillation von einem bidirektionalen Lehrermodell in ein spärliches kausales, autoregressives Schülermodell; (3) Wir entwerfen eine hochdurchsatzfähige, niedrig-latenz Inferenz-Pipeline, die mehrere wichtige technische Optimierungen beinhaltet, wie z.B.: (a) die Trennung des DiT und VAE-Decoders auf separate Geräte, (b) die effiziente Überlappung von inter-Geräte-Kommunikation und Berechnung mittels CUDA-Streams, (c) die Beseitigung redundanter Neuberechnungen zur Maximierung der Frame-Generierungsrate. Demo-Videos finden Sie hier - https://aaxwaz.github.io/TalkingMachines/
Aktuelle Studien zeigen, dass große Sprachmodelle (LLMs) eine Selbstpräferenzverzerrung aufweisen, wenn sie als Bewerter fungieren, was bedeutet, dass sie tendenziell ihre eigenen Antworten gegenüber denen anderer Modelle bevorzugen. Bestehende Methoden messen diese Verzerrung typischerweise, indem sie die Differenz zwischen den Bewertungen berechnen, die ein Bewertermodell seinen eigenen Antworten zuweist, und denen, die es den Antworten anderer Modelle zuweist. Dieser Ansatz vermischt jedoch die Selbstpräferenzverzerrung mit der Antwortqualität, da höherwertige Antworten des Bewertermodells ebenfalls zu positiven Bewertungsdifferenzen führen können, selbst in Abwesenheit einer Verzerrung. Um dieses Problem zu adressieren, führen wir Goldbewertungen als Stellvertreter für die tatsächliche Qualität der Antworten ein und schlagen den DBG-Score vor, der die Selbstpräferenzverzerrung als Differenz zwischen den Bewertungen misst, die das Bewertermodell seinen eigenen Antworten zuweist, und den entsprechenden Goldbewertungen. Da Goldbewertungen die wahre Antwortqualität widerspiegeln, mildert der DBG-Score den störenden Effekt der Antwortqualität auf die Verzerrungsmessung. Mit dem DBG-Score führen wir umfassende Experimente durch, um die Selbstpräferenzverzerrung bei LLMs verschiedener Versionen, Größen und Fähigkeiten zur logischen Schlussfolgerung zu bewerten. Zusätzlich untersuchen wir zwei Faktoren, die die Selbstpräferenzverzerrung beeinflussen und helfen, sie zu verringern: den Textstil der Antworten und die Post-Trainingsdaten der Bewertermodelle. Schließlich erkunden wir potenzielle zugrunde liegende Mechanismen der Selbstpräferenzverzerrung aus einer auf Aufmerksamkeit basierenden Perspektive. Unser Code und unsere Daten sind verfügbar unter https://github.com/zhiyuanc2001/self-preference.
Da große Sprachmodelle (LLMs) sich weiterentwickeln, wird die Notwendigkeit aktueller und gut organisierter Benchmarks zunehmend kritisch. Viele bestehende Datensätze sind jedoch verstreut, schwer zu verwalten und erschweren die Durchführung von Bewertungen, die auf spezifische Anforderungen oder Domänen zugeschnitten sind, obwohl die Bedeutung domänenspezifischer Modelle in Bereichen wie Mathematik oder Code stetig wächst. In diesem Artikel stellen wir BenchHub vor, ein dynamisches Benchmark-Repository, das Forscher und Entwickler befähigt, LLMs effektiver zu evaluieren. BenchHub aggregiert und klassifiziert automatisch Benchmark-Datensätze aus verschiedenen Domänen und integriert 303.000 Fragen aus 38 Benchmarks. Es wurde entwickelt, um kontinuierliche Aktualisierungen und skalierbares Datenmanagement zu unterstützen, wodurch flexible und anpassbare Bewertungen für verschiedene Domänen oder Anwendungsfälle ermöglicht werden. Durch umfangreiche Experimente mit verschiedenen LLM-Familien zeigen wir, dass die Modellleistung über domänenspezifische Teilmengen erheblich variiert, was die Bedeutung domänenbewusster Benchmarking unterstreicht. Wir glauben, dass BenchHub eine bessere Wiederverwendung von Datensätzen, transparentere Modellvergleiche und eine einfachere Identifizierung unterrepräsentierter Bereiche in bestehenden Benchmarks fördern kann und somit eine kritische Infrastruktur für die Weiterentwicklung der LLM-Evaluationsforschung bietet.
Jüngste Fortschritte in der generativen künstlichen Intelligenz haben das Feld der stilbeschrifteten Text-zu-Sprache-Synthese (CapTTS) erheblich verändert. Die Anpassung von CapTTS an reale Anwendungen bleibt jedoch aufgrund des Mangels an standardisierten, umfassenden Datensätzen und der begrenzten Forschung zu darauf aufbauenden Downstream-Aufgaben eine Herausforderung. Um diese Lücken zu schließen, stellen wir CapSpeech vor, einen neuen Benchmark, der für eine Reihe von CapTTS-bezogenen Aufgaben entwickelt wurde, darunter stilbeschriftete Text-zu-Sprache-Synthese mit Soundereignissen (CapTTS-SE), akzentbeschriftete TTS (AccCapTTS), emotionsbeschriftete TTS (EmoCapTTS) und Text-zu-Sprache-Synthese für Chat-Agenten (AgentTTS). CapSpeech umfasst über 10 Millionen maschinell annotierte Audio-Beschriftungs-Paare und fast 0,36 Millionen manuell annotierte Audio-Beschriftungs-Paare. Zusätzlich führen wir zwei neue Datensätze ein, die von einem professionellen Synchronsprecher und erfahrenen Tontechnikern speziell für die Aufgaben AgentTTS und CapTTS-SE gesammelt und aufgenommen wurden. Neben den Datensätzen führen wir umfassende Experimente mit sowohl autoregressiven als auch nicht-autoregressiven Modellen auf CapSpeech durch. Unsere Ergebnisse zeigen eine hochwertige und sehr verständliche Sprachsynthese über eine Vielzahl von Sprechstilen hinweg. Nach unserem besten Wissen ist CapSpeech der größte verfügbare Datensatz, der umfassende Annotationen für CapTTS-bezogene Aufgaben bietet. Die Experimente und Erkenntnisse liefern zudem wertvolle Einblicke in die Herausforderungen bei der Entwicklung von CapTTS-Systemen.
Diffusionsmodelle haben in letzter Zeit großen Erfolg in vielen Generierungsaufgaben wie der Objektentfernung motiviert. Dennoch kämpfen bestehende Methoden zur Bildzerlegung damit, halbtransparente oder transparente Schichtüberlagerungen zu entwirren, was auf Abhängigkeiten von Maskenpriors, statischen Objektannahmen und den Mangel an Datensätzen zurückzuführen ist. In diesem Artikel widmen wir uns einer neuartigen Aufgabe: der schichtweisen Zerlegung von Alpha-komponierten Bildern, mit dem Ziel, die zugrunde liegenden Schichten aus einzelnen überlagerten Bildern unter der Bedingung nicht-linearer Überlagerungen durch halbtransparente/transparente Alpha-Schichten wiederherzustellen. Um die Herausforderungen in Bezug auf Schichtmehrdeutigkeit, Generalisierung und Datenknappheit zu bewältigen, führen wir zunächst AlphaBlend ein, den ersten groß angelegten und hochwertigen Datensatz für die Zerlegung transparenter und halbtransparenter Schichten, der sechs reale Unteraufgaben unterstützt (z. B. die Entfernung von transluzenten Lichthöfen, die Zerlegung halbtransparenter Zellen, die Zerlegung von Glaswaren). Aufbauend auf diesem Datensatz präsentieren wir DiffDecompose, ein auf Diffusionstransformern basierendes Framework, das die A-posteriori-Verteilung über mögliche Schichtzerlegungen unter Berücksichtigung des Eingabebilds, semantischer Hinweise und des Mischtyps lernt. Anstatt Alpha-Matten direkt zu regressieren, führt DiffDecompose eine In-Context-Zerlegung durch, wodurch das Modell in der Lage ist, eine oder mehrere Schichten ohne pro-Schicht-Aufsicht vorherzusagen, und führt Layer Position Encoding Cloning ein, um die pixelgenaue Korrespondenz zwischen den Schichten zu erhalten. Umfangreiche Experimente auf dem vorgeschlagenen AlphaBlend-Datensatz und dem öffentlichen LOGO-Datensatz bestätigen die Wirksamkeit von DiffDecompose. Der Code und der Datensatz werden nach Annahme des Artikels verfügbar sein. Unser Code wird unter folgender Adresse verfügbar sein: https://github.com/Wangzt1121/DiffDecompose.
Spekulative Decodierung beschleunigt die Inferenz von Large Language Models (LLMs), indem ein kleiner Draft-Modell verwendet wird, um mehrere Tokens vorherzusagen, und ein großes Zielmodell, um diese Tokens parallel zu verifizieren. Aktuelle Studien nutzen den verborgenen Zustand des Zielmodells, um die Vorhersagegenauigkeit des Draft-Modells zu verbessern. Allerdings leiden bestehende Methoden unter der abnehmenden Qualität der Draft-Token-Vorhersagen an späteren Positionen, was auf die Fehlerakkumulation in den vom Draft-Modell generierten Merkmalen zurückzuführen ist. In diesem Artikel schlagen wir Position Specialists (PosS) vor, die aus mehreren positionsspezialisierten Draft-Schichten bestehen, um Tokens an zugewiesenen Position(en) zu generieren. Position Specialists verbessern die Token-Akzeptanzrate an späteren Positionen pro Drafting-Runde erheblich, da jeder Specialist sich nur darauf konzentrieren muss, eine bestimmte Ebene der Merkmalsabweichung des Draft-Modells zu handhaben. Experimentelle Ergebnisse mit Llama-3-8B-Instruct und Llama-2-13B-chat über sechs Datensätze zeigen, dass PosS die Baseline-Werte in Bezug auf die durchschnittliche Akzeptanzlänge und das Beschleunigungsverhältnis effektiv verbessert. Unsere Codebasis ist unter https://github.com/shrango/PosS verfügbar.
Jüngste Fortschritte im Bereich der Chain-of-Thought (CoT)-Argumentation haben das Verständnis komplexer Videos verbessert, doch bestehende Methoden haben oft Schwierigkeiten, sich domänenspezifischen Fähigkeiten (z. B. Ereigniserkennung, Verständnis räumlicher Beziehungen, Emotionsverständnis) über verschiedene Videoinhalte hinweg anzupassen. Um dies zu adressieren, schlagen wir Video-Skill-CoT (auch bekannt als Video-SKoT) vor, ein Framework, das automatisch fähigkeitsbewusste CoT-Aufsichten für domänenadaptives Video-Verstehen konstruiert und nutzt. Zunächst erstellen wir fähigkeitsbasierte CoT-Annotationen: Wir extrahieren domänenrelevante Argumentationsfähigkeiten aus Trainingsfragen, clustern sie in eine gemeinsame Fähigkeitstaxonomie und erstellen detaillierte mehrstufige CoT-Begründungen, die auf jedes Video-Frage-Paar für das Training zugeschnitten sind. Zweitens führen wir ein fähigkeitsspezifisches Expertenlernframework ein. Jedes Expertenmodul spezialisiert sich auf eine Teilmenge von Argumentationsfähigkeiten und wird mit leichtgewichtigen Adaptern unter Verwendung der gesammelten CoT-Aufsicht trainiert. Wir demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes anhand von drei Video-Verstehens-Benchmarks, bei denen Video-SKoT durchweg starke Baselines übertrifft. Zudem bieten wir detaillierte Analysen zum Vergleich verschiedener CoT-Annotationspipelines und erlernter Fähigkeiten über mehrere Videodomänen hinweg.
Adversariale Eingriffe können eine signifikante Verschiebung der CLIP-Embeddings verursachen. Dies kann die Robustheit nachgelagerter Modelle beeinträchtigen, die CLIP in ihrer Pipeline verwenden, wie beispielsweise Text-zu-Bild-Generierungsmodelle oder große visuell-sprachliche Modelle. Während bereits einige Anstrengungen unternommen wurden, um die CLIP-Bild-Encoder robuster zu gestalten, wurde die Robustheit der Text-Encoder bisher nicht untersucht. In dieser Arbeit schließen wir diese Lücke in der Literatur. Wir stellen LEAF vor: eine effiziente adversarielle Feinabstimmungsmethode für den Textbereich, die sich auf große CLIP-Modelle skalieren lässt. Unsere Modelle verbessern die Zero-Shot-Adversarial-Genauigkeit im Textbereich erheblich, während sie die visuelle Leistung beibehalten, die durch robuste Bild-Encoder bereitgestellt wird. In Kombination mit Text-zu-Bild-Diffusionsmodellen können wir die Generierungsqualität unter adversariellem Rauschen verbessern. Wenn wir unsere robusten CLIP-Encoder in multimodalen Retrieval-Aufgaben einsetzen, steigern wir den Recall unter adversariellem Rauschen im Vergleich zu Standard-CLIP-Modellen. Schließlich zeigen wir, dass robuste Text-Encoder eine bessere Rekonstruktion des Eingabetextes aus seinem Embedding durch direkte Optimierung ermöglichen.
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) mit numerischem Feedback, wie beispielsweise skalaren Belohnungen, haben die komplexen Denkfähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Trotz dieser Erfolge identifizieren wir drei zentrale Herausforderungen, die RL mit ausschließlich numerischem Feedback begegnet: Leistungsplateaus, begrenzte Wirksamkeit der Selbstreflexion und anhaltende Fehler. Wir zeigen dann, dass RL-feinabgestimmte Modelle, selbst nachdem sie Leistungsplateaus erreicht haben, korrekte Verfeinerungen bei anhaltend fehlgeschlagenen Problemen generieren können, indem sie natürliches Sprachfeedback in Form von Kritiken nutzen. Aufbauend auf dieser Erkenntnis schlagen wir Critique-GRPO vor, ein Online-RL-Framework, das sowohl natürliches Sprach- als auch numerisches Feedback für eine effektive Politikoptimierung integriert. Critique-GRPO ermöglicht es LLMs, gleichzeitig aus initialen Antworten und kritikgeleiteten Verfeinerungen zu lernen, während die Exploration aufrechterhalten wird. Umfangreiche Experimente mit Qwen2.5-7B-Base und Qwen3-8B-Base zeigen, dass Critique-GRPO durchweg überwachte Lern- und RL-basierte Feinabstimmungsansätze in acht anspruchsvollen mathematischen, MINT- und allgemeinen Denkaufgaben übertrifft und die durchschnittlichen pass@1-Werte um etwa 4,5 % bzw. 5 % verbessert. Bemerkenswerterweise übertrifft Critique-GRPO eine starke Baseline, die Experten-Demonstrationen innerhalb des Online-RL integriert. Eine weitere Analyse offenbart zwei kritische Erkenntnisse über die Politikexploration: (1) höhere Entropie garantiert nicht immer effizientes Lernen durch Exploration, und (2) längere Antworten führen nicht zwangsläufig zu effektiverer Exploration.
Continual Learning (CL) zielt darauf ab, neuronale Netzwerke in die Lage zu versetzen, neues Wissen inkrementell zu erwerben (Plastizität), während bestehendes Wissen erhalten bleibt (Stabilität). Obwohl vortrainierte Modelle (PTMs) in CL eine zentrale Rolle spielen, frieren gängige Ansätze das PTM-Backbone ein, um die Stabilität zu bewahren, was jedoch ihre Plastizität einschränkt, insbesondere bei signifikanten Domänenunterschieden in inkrementellen Aufgaben. Umgekehrt birgt das sequenzielle Feinabstimmen des gesamten PTMs das Risiko eines katastrophalen Vergessens von generalisierbarem Wissen, was einen kritischen Kompromiss zwischen Stabilität und Plastizität offenlegt. Um diese Herausforderung zu bewältigen, schlagen wir Adapting PTMs before the core CL process (ACL) vor, ein neuartiges Framework, das das PTM-Backbone durch eine Plug-and-Play-Anpassungsphase verfeinert, bevor jede neue Aufgabe mit bestehenden CL-Ansätzen (z. B. Prompt Tuning) gelernt wird. ACL verbessert die Plastizität, indem es Embeddings mit ihren ursprünglichen Klassenprototypen ausrichtet und sie gleichzeitig von anderen distanziert, was theoretisch und empirisch gezeigt wurde, um Stabilität und Plastizität auszugleichen. Umfangreiche Experimente zeigen, dass ACL die CL-Leistung über Benchmarks und integrierte Methoden hinweg signifikant verbessert und somit eine vielseitige Lösung für PTM-basiertes CL bietet.
LLM-as-a-judge ist ein Framework, in dem ein großes Sprachmodell (LLM) automatisch die Ausgabe eines anderen LLMs bewertet. Wir schlagen quantitative LLM-Judges vor, die die Bewertungsergebnisse bestehender LLM-Judges an menschliche Bewertungen in einem bestimmten Bereich mithilfe von Regressionsmodellen anpassen. Diese Modelle werden trainiert, um die Bewertung des ursprünglichen Judges zu verbessern, indem sie die textuelle Bewertung und die Punktzahl des Judges nutzen. Wir präsentieren vier quantitative Judges für verschiedene Arten von absolutem und relativem Feedback, was die Allgemeingültigkeit und Vielseitigkeit unseres Frameworks verdeutlicht. Unser Framework ist recheneffizienter als überwachtes Fein-Tuning und kann statistisch effizienter sein, wenn menschliches Feedback begrenzt ist, was in den meisten Anwendungsfällen unserer Arbeit zu erwarten ist. Wir validieren diese Behauptungen empirisch anhand von vier Datensätzen und zwei Basis-Judges. Unsere Experimente zeigen, dass quantitative Judges die Vorhersagekraft bestehender Judges durch post-hoc-Modellierung effektiv verbessern können.
Große Foundation-Modelle, die auf umfangreichen Datensätzen trainiert wurden, zeigen starke Zero-Shot-Fähigkeiten in verschiedenen Domänen. Um ihren Erfolg zu replizieren, wenn Daten- und Modellgröße eingeschränkt sind, hat sich die Wissensdistillation als etabliertes Werkzeug erwiesen, um Wissen von Foundation-Modellen auf kleinere Studentennetzwerke zu übertragen. Die Effektivität der Distillation wird jedoch kritisch durch die verfügbaren Trainingsdaten begrenzt. Diese Arbeit befasst sich mit dem häufigen praktischen Problem des Kovariatenverschiebungs in der Wissensdistillation, bei dem während des Trainings trügerische Merkmale auftreten, die jedoch zur Testzeit nicht vorhanden sind. Wir stellen die Frage: Wenn diese trügerischen Merkmale unbekannt sind, aber ein robustes Lehrermodell verfügbar ist, ist es dann möglich, dass ein Studentennetzwerk ebenfalls robust gegenüber diesen Merkmalen wird? Wir lösen dieses Problem, indem wir eine neuartige, diffusionsbasierte Datenaugmentationsstrategie einführen, die Bilder erzeugt, indem die Diskrepanz zwischen dem Lehrer und dem Studenten maximiert wird. Dadurch werden anspruchsvolle Proben erstellt, mit denen der Student Schwierigkeiten hat. Experimente zeigen, dass unser Ansatz die Genauigkeit der schlechtesten Gruppe und der Durchschnittsgruppe auf CelebA und SpuCo Birds sowie das trügerische mAUC auf spurious ImageNet unter Kovariatenverschiebung signifikant verbessert und dabei state-of-the-art, diffusionsbasierte Datenaugmentations-Baselines übertrifft.
Trotz jüngster Fortschritte in der Inversion und instruktionsbasierten Bildbearbeitung exzellieren bestehende Ansätze vor allem bei der Bearbeitung einzelner, dominanter Objekte, haben jedoch erhebliche Schwierigkeiten, wenn sie auf komplexe Szenen mit mehreren Entitäten angewendet werden. Um diese Lücke zu quantifizieren, führen wir zunächst RefEdit-Bench ein, einen rigorosen, realitätsnahen Benchmark, der auf RefCOCO basiert, bei dem selbst Baselines, die mit Millionen von Beispielen trainiert wurden, schlecht abscheiden. Um diese Einschränkung zu überwinden, stellen wir RefEdit vor – ein instruktionsbasiertes Bearbeitungsmodell, das mit unserer skalierbaren Pipeline zur synthetischen Datengenerierung trainiert wurde. Unser RefEdit, das mit nur 20.000 Bearbeitungs-Triplets trainiert wurde, übertrifft die auf Millionen von Daten trainierten Flux/SD3-Modell-Baselines. Umfangreiche Evaluierungen über verschiedene Benchmarks hinweg zeigen, dass unser Modell nicht nur in Aufgaben mit referenziellen Ausdrücken hervorragt, sondern auch die Leistung auf traditionellen Benchmarks verbessert und state-of-the-art Ergebnisse erzielt, die mit Closed-Source-Methoden vergleichbar sind. Wir veröffentlichen Daten & Checkpoints zur Reproduzierbarkeit.
Große Sprachmodelle (LLMs) werden oft dafür gelobt, dass sie auf einer breiten Palette von Aufgaben nahezu menschliche Leistungen erbringen und für ihre Fähigkeit geschätzt werden, allgemeine Gespräche zu führen. Der Aufstieg agentenbasierter KI-Systeme führt jedoch zu einer Vielzahl von Anwendungen, in denen Sprachmodelle eine kleine Anzahl spezialisierter Aufgaben wiederholt und mit geringer Variation ausführen. Hier vertreten wir die Position, dass kleine Sprachmodelle (SLMs) für viele Anwendungen in agentenbasierten Systemen ausreichend leistungsstark, inhärent besser geeignet und notwendigerweise wirtschaftlicher sind und daher die Zukunft der agentenbasierten KI darstellen. Unsere Argumentation stützt sich auf das derzeitige Leistungsniveau von SLMs, die gängigen Architekturen agentenbasierter Systeme und die Wirtschaftlichkeit des Einsatzes von Sprachmodellen. Wir argumentieren weiter, dass in Situationen, in denen allgemeine Konversationsfähigkeiten unerlässlich sind, heterogene agentenbasierte Systeme (d. h. Agenten, die mehrere verschiedene Modelle aufrufen) die natürliche Wahl sind. Wir diskutieren die potenziellen Hindernisse für die Einführung von SLMs in agentenbasierten Systemen und skizzieren einen allgemeinen Algorithmus zur Umwandlung von LLM- in SLM-Agenten. Unsere Position, als Wertaussage formuliert, unterstreicht die Bedeutung der operativen und wirtschaftlichen Auswirkungen, die selbst eine teilweise Verlagerung von LLMs zu SLMs auf die KI-Agentenindustrie haben wird. Unser Ziel ist es, die Diskussion über den effektiven Einsatz von KI-Ressourcen anzuregen und die Bemühungen zur Senkung der heutigen KI-Kosten voranzutreiben. Wir rufen sowohl zu Beiträgen als auch zur Kritik unserer Position auf und verpflichten uns, alle entsprechenden Korrespondenzen unter https://research.nvidia.com/labs/lpr/slm-agents zu veröffentlichen.
Flussdiagramme sind ein entscheidendes Werkzeug zur Visualisierung von Entscheidungsprozessen. Ihre nicht-lineare Struktur und die komplexen visuell-textuellen Beziehungen machen es jedoch schwierig, sie mit LLMs (Large Language Models) zu interpretieren, da Vision-Sprach-Modelle häufig nicht existierende Verbindungen und Entscheidungspfade halluzinieren, wenn sie diese Diagramme analysieren. Dies beeinträchtigt die Zuverlässigkeit der automatisierten Flussdiagrammverarbeitung in kritischen Bereichen wie Logistik, Gesundheit und Ingenieurwesen. Wir führen die Aufgabe der Fein-granularen Flussdiagramm-Attribution ein, die spezifische Komponenten nachverfolgt, die eine auf ein Flussdiagramm bezogene LLM-Antwort begründen. Flussdiagramm-Attribution gewährleistet die Überprüfbarkeit von LLM-Vorhersagen und verbessert die Erklärbarkeit, indem generierte Antworten mit der Struktur des Flussdiagramms verknüpft werden. Wir stellen FlowPathAgent vor, einen neurosymbolischen Agenten, der eine fein-granulare post-hoc-Attribution durch graphenbasierte Schlussfolgerung durchführt. Er segmentiert zunächst das Flussdiagramm, wandelt es dann in einen strukturierten symbolischen Graphen um und verwendet einen agentenbasierten Ansatz, um dynamisch mit dem Graphen zu interagieren und Attributionspfade zu generieren. Zusätzlich präsentieren wir FlowExplainBench, einen neuartigen Benchmark zur Bewertung von Flussdiagramm-Attributionen über verschiedene Stile, Domänen und Fragentypen hinweg. Experimentelle Ergebnisse zeigen, dass FlowPathAgent visuelle Halluzinationen in LLM-Antworten auf Flussdiagramm-Fragen reduziert und starke Baseline-Modelle auf unserem vorgeschlagenen FlowExplainBench-Datensatz um 10–14 % übertrifft.
Das Pruning (Beschneiden) wurde in letzter Zeit weit verbreitet eingesetzt, um die Parameteranzahl zu reduzieren und die Inferenzeffizienz von Large Language Models (LLMs) zu verbessern. Mainstream-Pruning-Techniken basieren oft auf einheitlichen, schichtenweisen Beschneidungsstrategien, die bei hohen Sparsamkeitsniveaus zu erheblichen Leistungseinbußen führen können. In Anerkennung der unterschiedlichen Beiträge verschiedener Schichten in LLMs haben sich neuere Studien auf nicht-uniforme, schichtenweise Beschneidungsverfahren konzentriert. Diese Ansätze stützen sich jedoch häufig auf vordefinierte Werte, was zu suboptimalen Ergebnissen führen kann. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Methode namens Dynamic Layerwise Pruning (DLP) vor. Dieser Ansatz bestimmt adaptiv die relative Bedeutung jeder Schicht, indem er Modellgewichte mit Informationen über die Eingabeaktivierung integriert und entsprechend Beschneidungsraten zuweist. Experimentelle Ergebnisse zeigen, dass DLP die Modellleistung bei hohen Sparsamkeitsniveaus über mehrere LLMs hinweg effektiv bewahrt. Insbesondere reduziert DLP bei 70 % Sparsamkeit die Perplexität von LLaMA2-7B um 7,79 und verbessert die durchschnittliche Genauigkeit um 2,7 % im Vergleich zu state-of-the-art Methoden. Darüber hinaus ist DLP mit verschiedenen bestehenden LLM-Komprimierungstechniken kompatibel und kann nahtlos in Parameter-Efficient Fine-Tuning (PEFT) integriert werden. Wir veröffentlichen den Code unter https://github.com/ironartisan/DLP, um zukünftige Forschung zu erleichtern.
Aktuelle Benchmarks für das Verständnis von langen Videos und Sprache haben Fortschritte bei großen multimodalen Video-Modellen (Video-LMMs) vorangetrieben. Die Knappheit von gut annotierten langen Videos hat jedoch das Training von Video-LLMs für stundenlange Inhalte bisher wenig erforscht gelassen. Um diese Lücke zu schließen, präsentieren wir VideoMarathon, einen groß angelegten Datensatz für stundenlange Video-Instruktionsfolgen. Dieser Datensatz umfasst rund 9.700 Stunden lange Videos aus verschiedenen Domänen, mit einer Dauer von 3 bis 60 Minuten pro Video. Insbesondere enthält er 3,3 Millionen hochwertige Frage-Antwort-Paare, die sechs grundlegende Themen abdecken: Temporalität, Räumlichkeit, Objekte, Aktionen, Szenen und Ereignisse. Im Vergleich zu bestehenden Video-Instruktionsdatensätzen erweitert VideoMarathon die Trainingsvideodauer signifikant auf bis zu 1 Stunde und unterstützt 22 verschiedene Aufgaben, die sowohl kurzfristiges als auch langfristiges Videoverständnis erfordern. Basierend auf VideoMarathon schlagen wir Hour-LLaVA vor, ein leistungsstarkes und effizientes Video-LMM für die Modellierung von stundenlanger Video-Sprache. Es ermöglicht das Training und die Inferenz von stundenlangen Videos mit einer Abtastrate von 1 FPS durch die Nutzung eines Speichererweiterungsmoduls, das relevante Benutzerfragen und raumzeitlich informative Semantik aus einem zwischengespeicherten vollständigen Videokontext adaptiv integriert. In unseren Experimenten erzielt Hour-LLaVA die beste Leistung auf mehreren Benchmarks für lange Video-Sprache, was die hohe Qualität des VideoMarathon-Datensatzes und die Überlegenheit des Hour-LLaVA-Modells unterstreicht.
Agentische KI-Systeme, die auf großen Sprachmodellen (LLMs) basieren und in Multi-Agenten-Konfigurationen eingesetzt werden, revolutionieren intelligente Autonomie, Zusammenarbeit und Entscheidungsfindung in unternehmerischen und gesellschaftlichen Bereichen. Diese Übersichtsarbeit präsentiert eine strukturierte Analyse von Trust, Risk und Security Management (TRiSM) im Kontext von LLM-basierten agentischen Multi-Agenten-Systemen (AMAS). Wir beginnen mit der Untersuchung der konzeptionellen Grundlagen agentischer KI, ihrer architektonischen Unterschiede zu traditionellen KI-Agenten und den aufkommenden Systemdesigns, die skalierbare, werkzeugnutzende Autonomie ermöglichen. Das TRiSM im Rahmen agentischer KI wird dann durch vier Säulen detailliert: Governance, Erklärbarkeit, ModelOps sowie Privatsphäre/Sicherheit – jeweils im Kontext agentischer LLMs. Wir identifizieren einzigartige Bedrohungsvektoren und führen eine umfassende Risikotaxonomie für agentische KI-Anwendungen ein, unterstützt durch Fallstudien, die reale Schwachstellen veranschaulichen. Darüber hinaus untersucht das Papier auch Vertrauensbildungsmechanismen, Transparenz- und Überwachungstechniken sowie state-of-the-art Erklärbarkeitsstrategien in verteilten LLM-Agentensystemen. Zusätzlich werden Metriken zur Bewertung von Vertrauen, Interpretierbarkeit und menschzentrierter Leistung neben offenen Benchmarking-Herausforderungen betrachtet. Sicherheit und Privatsphäre werden durch Verschlüsselung, adversarische Abwehr und die Einhaltung sich entwickelnder KI-Regularien adressiert. Das Papier schließt mit einem Fahrplan für verantwortungsvolle agentische KI und schlägt Forschungsrichtungen vor, um aufkommende Multi-Agenten-Systeme mit robusten TRiSM-Prinzipien für sichere, rechenschaftspflichtige und transparente Bereitstellung in Einklang zu bringen.
Die Entdeckung von Hochtemperatur-Supraleitern hat große Bedeutung für die menschliche Industrie und den Alltag. In den letzten Jahren hat die Forschung zur Vorhersage von supraleitenden Übergangstemperaturen mithilfe künstlicher Intelligenz (KI) an Popularität gewonnen, wobei die meisten dieser Werkzeuge bemerkenswerte Genauigkeit beanspruchen. Das Fehlen weitgehend akzeptierter Benchmark-Datensätze in diesem Bereich hat jedoch faire Vergleiche zwischen verschiedenen KI-Algorithmen stark behindert und die Weiterentwicklung dieser Methoden erschwert. In dieser Arbeit präsentieren wir den HTSC-2025, einen Benchmark-Datensatz für Hochtemperatur-Supraleiter unter Umgebungsdruck. Diese umfassende Zusammenstellung umfasst theoretisch vorhergesagte supraleitende Materialien, die von theoretischen Physikern von 2023 bis 2025 basierend auf der BCS-Supraleitertheorie entdeckt wurden, darunter das bekannte X_2YH_6-System, das Perowskit-MXH_3-System, das M_3XH_8-System, käfigartige BCN-dotierte Metallatom-Systeme, die aus der strukturellen Entwicklung von LaH_{10} abgeleitet wurden, und zweidimensionale wabenförmige Systeme, die sich aus MgB_2 entwickelt haben. Der HTSC-2025-Benchmark wurde unter https://github.com/xqh19970407/HTSC-2025 quelloffen bereitgestellt und wird kontinuierlich aktualisiert. Dieser Benchmark ist von großer Bedeutung, um die Entdeckung supraleitender Materialien mithilfe KI-basierter Methoden zu beschleunigen.
Die Verbesserung der Fähigkeiten großer Sprachmodelle zum logischen Schlussfolgern mithilfe von Reinforcement Learning (RL) bleibt eine entscheidende Herausforderung. Bestehende Ansätze verfolgen hauptsächlich zwei kontrastierende Granularitäten der Vorteilsschätzung: Token-Level-Methoden (z. B. PPO) zielen darauf ab, feingranulare Vorteilssignale bereitzustellen, leiden jedoch unter ungenauen Schätzungen aufgrund von Schwierigkeiten beim Training eines präzisen Kritiker-Modells. Auf der anderen Seite verlassen sich Trajektorien-Level-Methoden (z. B. GRPO) ausschließlich auf ein grobgranulares Vorteilssignal aus der Endbelohnung, was zu ungenauen Kreditzuweisungen führt. Um diese Einschränkungen zu überwinden, schlagen wir Segment Policy Optimization (SPO) vor, ein neuartiges RL-Framework, das eine Segment-Level-Vorteilsschätzung mit mittlerer Granularität nutzt und so eine bessere Balance erreicht, indem es präzisere Kreditzuweisungen als Trajektorien-Level-Methoden bietet und weniger Schätzpunkte als Token-Level-Methoden benötigt. Dies ermöglicht eine genaue Vorteilsschätzung basierend auf Monte Carlo (MC) ohne ein Kritiker-Modell. SPO umfasst drei Komponenten mit innovativen Strategien: (1) flexible Segmentpartitionierung, (2) präzise Segmentvorteilsschätzung und (3) Policy-Optimierung mithilfe von Segmentvorteilen, einschließlich einer neuartigen Wahrscheinlichkeitsmasken-Strategie. Wir konkretisieren SPO weiter für zwei spezifische Szenarien: (1) SPO-Chain für kurze Chain-of-Thought (CoT), das eine neuartige Schnittpunkt-basierte Partitionierung und kettenbasierte Vorteilsschätzung beinhaltet und eine Verbesserung der Genauigkeit um 6–12 Prozentpunkte gegenüber PPO und GRPO auf GSM8K erzielt. (2) SPO-Tree für lange CoT, das eine neuartige baumbasierte Vorteilsschätzung bietet, die die Kosten der MC-Schätzung erheblich reduziert und eine Verbesserung der Genauigkeit um 7–11 Prozentpunkte gegenüber GRPO auf MATH500 unter 2K- und 4K-Kontextbewertungen erreicht. Unser Code ist öffentlich verfügbar unter https://github.com/AIFrameResearch/SPO.
Das Ziel der Objektreferenzierung besteht darin, alle Objekte in einem Bild zu erkennen, die einer gegebenen natürlichen Sprachbeschreibung entsprechen. Wir argumentieren, dass ein robustes Objektreferenzierungsmodell fundiert sein sollte, was bedeutet, dass seine Vorhersagen sowohl erklärbar als auch treu zum visuellen Inhalt sein sollten. Konkret sollte es zwei Schlüsseleigenschaften erfüllen: 1) Verifizierbar, indem es interpretierbare Begründungen liefert, die seine Vorhersagen rechtfertigen und sie klar mit visuellen Beweisen verknüpfen; und 2) Vertrauenswürdig, indem es lernt, sich zurückzuhalten, wenn kein Objekt im Bild der gegebenen Beschreibung entspricht. Die meisten Methoden behandeln die Referenzierung jedoch als direkte Bounding-Box-Vorhersageaufgabe, was nur begrenzte Interpretierbarkeit bietet und Schwierigkeiten hat, Ausdrücke ohne passendes Objekt abzulehnen. In dieser Arbeit schlagen wir Rex-Thinker vor, ein Modell, das die Objektreferenzierung als explizite Chain-of-Thought (CoT)-Denkaufgabe formuliert. Bei einer Referenzierungsbeschreibung identifizieren wir zunächst alle Kandidatenobjektinstanzen, die der referenzierten Objektkategorie entsprechen. Rex-Thinker führt dann schrittweise Überlegungen für jeden Kandidaten durch, um zu bewerten, ob er der gegebenen Beschreibung entspricht, bevor eine endgültige Vorhersage getroffen wird. Um dieses Paradigma zu unterstützen, erstellen wir einen groß angelegten CoT-stiligen Referenzierungsdatensatz namens HumanRef-CoT, indem wir GPT-4o auf dem HumanRef-Datensatz anweisen. Jede Denkspur folgt einem strukturierten Planungs-, Handlungs- und Zusammenfassungsformat, wodurch das Modell dekomponierte, interpretierbare Überlegungen über Objektkandidaten lernen kann. Anschließend trainieren wir Rex-Thinker in zwei Phasen: einer kaltstartigen überwachten Feinabstimmungsphase, um dem Modell beizubringen, wie es strukturierte Überlegungen durchführt, gefolgt von GRPO-basiertem Reinforcement Learning, um die Genauigkeit und Generalisierung zu verbessern. Experimente zeigen, dass unser Ansatz Standard-Benchmarks sowohl in der Präzision als auch in der Interpretierbarkeit bei der In-Domain-Evaluierung übertrifft, während er auch eine verbesserte Fähigkeit zur Ablehnung von halluzinierten Ausgaben und eine starke Generalisierung in Out-of-Domain-Szenarien demonstriert.
Das Streben nach Continual Learning (CL) zielt darauf ab, neuronale Netze mit der Fähigkeit auszustatten, inkrementell zu lernen und sich anzupassen. Kern dieser Bestrebung ist die Bewältigung des Stabilität-Plastizität-Dilemmas, bei dem es darum geht, ein Gleichgewicht zwischen zwei widersprüchlichen Zielen zu finden: die Bewahrung zuvor erworbenen Wissens und die Aufnahme neuen Wissens. Während zahlreiche CL-Methoden diesen Kompromiss anstreben, übersehen sie oft den Einfluss der Netzwerkarchitektur auf Stabilität und Plastizität, wodurch der Kompromiss auf die Parameterebene beschränkt bleibt. In diesem Artikel untersuchen wir den Konflikt zwischen Stabilität und Plastizität auf der Architekturebene. Wir zeigen, dass unter gleichen Parameterbeschränkungen tiefere Netze eine bessere Plastizität aufweisen, während breitere Netze durch eine überlegene Stabilität gekennzeichnet sind. Um dieses Architekturebenen-Dilemma zu lösen, führen wir ein neuartiges Framework namens Dual-Arch ein, das als Plug-in-Komponente für CL dient. Dieses Framework nutzt die komplementären Stärken von zwei unterschiedlichen und unabhängigen Netzen: eines, das auf Plastizität ausgerichtet ist, und ein anderes, das auf Stabilität abzielt. Jedes Netz ist mit einer spezialisierten und leichtgewichtigen Architektur ausgestattet, die auf das jeweilige Ziel zugeschnitten ist. Umfangreiche Experimente zeigen, dass Dual-Arch die Leistung bestehender CL-Methoden verbessert und dabei bis zu 87 % kompakter in Bezug auf die Parameter ist.
Publikationsdatenbanken sind auf die präzise Extraktion von Metadaten aus verschiedenen Webquellen angewiesen, doch Unterschiede in Web-Layouts und Datenformaten stellen Herausforderungen für Metadatenanbieter dar. Dieses Papier stellt CRAWLDoc vor, eine neue Methode zur kontextuellen Bewertung verknüpfter Webdokumente. Ausgehend von der URL einer Publikation, wie z. B. einem digitalen Objektbezeichner, ruft CRAWLDoc die Landingpage und alle verknüpften Webressourcen ab, einschließlich PDFs, ORCID-Profilen und ergänzenden Materialien. Es integriert diese Ressourcen zusammen mit Ankertexten und URLs in eine einheitliche Darstellung. Zur Bewertung von CRAWLDoc haben wir einen neuen, manuell annotierten Datensatz von 600 Publikationen von sechs führenden Verlagen in der Informatik erstellt. Unsere Methode CRAWLDoc zeigt eine robuste und layoutunabhängige Bewertung relevanter Dokumente über Verlage und Datenformate hinweg. Sie legt die Grundlage für eine verbesserte Metadatenextraktion aus Webdokumenten mit verschiedenen Layouts und Formaten. Unser Quellcode und der Datensatz sind unter https://github.com/FKarl/CRAWLDoc verfügbar.
Eine Möglichkeit, Risiken in Vision-Language-Modellen (VLMs) zu mindern, besteht darin, gefährliche Beispiele aus ihren Trainingsdaten zu entfernen. Eine solche Datenmoderation kann jedoch leicht umgangen werden, wenn schädliche Bilder in kleine, harmlos aussehende Teile aufgeteilt und über viele Trainingsbeispiele verteilt werden. VLMs können dann lernen, diese Fragmente während des Trainings zusammenzusetzen und bei der Inferenz schädliche Antworten zu generieren, sei es aus vollständigen Bildern oder Textreferenzen. Wenn beispielsweise Bildteile aus einer blutigen Szene mit der Beschreibung „sicher“ gepaart trainiert werden, könnten VLMs später das vollständige Bild oder eine Textreferenz auf die Szene als „sicher“ beschreiben. Wir definieren die Kernfähigkeit von VLMs, die diesen Angriff ermöglicht, als visuelles Zusammensetzen (visual stitching) – die Fähigkeit, visuelle Informationen zu integrieren, die über mehrere Trainingsbeispiele verteilt sind, die dieselben Textbeschreibungen teilen. In unserer Arbeit demonstrieren wir zunächst die Fähigkeit des visuellen Zusammensetzens in gängigen Open-Source-VLMs anhand von drei Datensätzen, bei denen jedes Bild mit einer eindeutigen synthetischen ID versehen ist: Wir teilen jedes (Bild, ID)-Paar in {(Teilbild, ID)}-Paare mit unterschiedlicher Granularität für das Feinabstimmen auf und stellen fest, dass die abgestimmten Modelle die korrekten IDs aus vollständigen Bildern oder Textreferenzen verbalisieren können. Darauf aufbauend simulieren wir das oben erwähnte Szenario der adversarischen Datenvergiftung, indem wir Teile aus gefährlichen Bildern verwenden und die IDs durch Textbeschreibungen wie „sicher“ oder „unsicher“ ersetzen. Dadurch zeigen wir, wie schädliche Inhalte die Moderation in Teilbildern umgehen und später durch visuelles Zusammensetzen rekonstruiert werden können, was ernsthafte Sicherheitsrisiken für VLMs darstellt. Der Code ist verfügbar unter https://github.com/ZHZisZZ/visual-stitching.
Die 3D-Rekonstruktion aus Bildern in unkontrollierten Umgebungen bleibt aufgrund inkonsistenter Lichtverhältnisse und vorübergehender Störfaktoren eine anspruchsvolle Aufgabe. Bestehende Methoden verlassen sich typischerweise auf heuristische Strategien, um die niedrige Qualität der Trainingsdaten zu bewältigen, was oft zu instabilen und inkonsistenten Rekonstruktionen führt und häufig visuelle Artefakte verursacht. In dieser Arbeit schlagen wir Asymmetric Dual 3DGS vor, ein neuartiges Framework, das die stochastische Natur dieser Artefakte nutzt: Sie neigen dazu, aufgrund geringfügiger Zufälligkeiten über verschiedene Trainingsläufe hinweg zu variieren. Konkret trainiert unsere Methode zwei 3D Gaussian Splatting (3DGS)-Modelle parallel und erzwingt eine Konsistenzbedingung, die die Konvergenz auf zuverlässige Szenengeometrie fördert, während inkonsistente Artefakte unterdrückt werden. Um zu verhindern, dass die beiden Modelle aufgrund von Bestätigungsfehlern in ähnliche Fehlermodi kollabieren, führen wir eine divergente Maskierungsstrategie ein, die zwei komplementäre Masken anwendet: eine multikriterielle adaptive Maske und eine selbstüberwachte weiche Maske, was zu einem asymmetrischen Trainingsprozess der beiden Modelle führt und gemeinsame Fehlermodi reduziert. Darüber hinaus führen wir, um die Effizienz des Modelltrainings zu verbessern, eine leichtgewichtige Variante namens Dynamic EMA Proxy ein, die eines der beiden Modelle durch einen dynamisch aktualisierten Exponential Moving Average (EMA)-Proxy ersetzt und eine abwechselnde Maskierungsstrategie verwendet, um die Divergenz zu bewahren. Umfangreiche Experimente mit anspruchsvollen realen Datensätzen zeigen, dass unsere Methode bestehende Ansätze durchweg übertrifft und dabei hohe Effizienz erreicht. Codes und trainierte Modelle werden veröffentlicht.
Flow-basierte latente generative Modelle wie Stable Diffusion 3 sind in der Lage, Bilder von bemerkenswerter Qualität zu erzeugen und ermöglichen sogar fotorealistische Text-zu-Bild-Generierung. Ihre beeindruckende Leistung legt nahe, dass diese Modelle auch als leistungsstarke Priors für inverse Bildgebungsprobleme dienen sollten, doch dieser Ansatz hat bisher keine vergleichbare Genauigkeit erreicht. Es gibt mehrere zentrale Hindernisse: (i) die Kodierung in einen niedrigdimensionalen latenten Raum macht die zugrunde liegende (vorwärtsgerichtete) Abbildung nichtlinear; (ii) der Datenwahrscheinlichkeitsterm ist in der Regel nicht handhabbar; und (iii) gelernte generative Modelle haben Schwierigkeiten, seltene, atypische Datenmodi während der Inferenz wiederherzustellen. Wir präsentieren FLAIR, ein neuartiges trainingsfreies variationsbasiertes Framework, das flow-basierte generative Modelle als Prior für inverse Probleme nutzt. Dazu führen wir ein variationsbasiertes Ziel für Flow Matching ein, das unabhängig von der Art der Degradation ist, und kombinieren es mit deterministischen Trajektorienanpassungen, um atypische Modi wiederherzustellen. Um eine exakte Konsistenz mit den beobachteten Daten zu gewährleisten, entkoppeln wir die Optimierung der Datenkonsistenz- und Regularisierungsterme. Darüber hinaus führen wir ein zeitabhängiges Kalibrierungsschema ein, bei dem die Stärke der Regularisierung basierend auf Offline-Genauigkeitsschätzungen moduliert wird. Ergebnisse auf Standard-Bildgebungsbenchmarks zeigen, dass FLAIR bestehende Diffusions- und Flow-basierte Methoden in Bezug auf Rekonstruktionsqualität und Probenvielfalt konsequent übertrifft.
Mehrstufiges symbolisches Denken ist entscheidend für die Verbesserung der Leistung bei finanziellen Aufgaben. Dennoch fehlen Benchmarks, um diese Fähigkeit systematisch zu bewerten. Bestehende Datensätze wie FinQA und ConvFinQA überwachen nur die endgültigen numerischen Antworten, ohne die Zwischenschritte der Argumentation zu bewerten. Um dies zu beheben, stellen wir FinChain vor, den ersten symbolischen Benchmark, der für überprüfbare Chain-of-Thought (CoT)-Finanzargumentation entwickelt wurde. FinChain umfasst 54 Themen aus 12 Finanzbereichen und bietet fünf parametrisierte Vorlagen pro Thema, die sich in der Komplexität der Argumentation und dem erforderlichen Fachwissen unterscheiden. Jeder Datensatz enthält eine ausführbare Python-Spur, die die automatische Generierung umfangreicher Trainingsdaten ermöglicht und eine einfache Anpassung an andere Bereiche erleichtert. Wir führen auch ChainEval ein, eine neue Metrik zur automatischen Bewertung sowohl der endgültigen Antworten als auch der Zwischenschritte der Argumentation. Bei der Bewertung von 30 LLMs auf unserem Datensatz stellen wir fest, dass selbst die modernsten Modelle erheblichen Verbesserungsbedarf bei der mehrstufigen Finanzargumentation haben. Alle Vorlagen und Bewertungsmetriken für FinChain sind unter https://github.com/mbzuai-nlp/finchain verfügbar.
Die Erzeugung präziser Klänge für komplexe audiovisuelle Szenen ist eine Herausforderung, insbesondere bei der Anwesenheit mehrerer Objekte und Klangquellen. In diesem Artikel schlagen wir ein {\em interaktives, objektbewusstes Audio-Generierungsmodell} vor, das die Klangerzeugung auf vom Benutzer ausgewählte visuelle Objekte innerhalb von Bildern abstützt. Unser Ansatz integriert objektzentriertes Lernen in ein bedingtes latentes Diffusionsmodell, das durch multimodale Aufmerksamkeit lernt, Bildregionen mit ihren entsprechenden Klängen zu verknüpfen. Zur Testzeit verwendet unser Modell Bildsegmentierung, um Benutzern die interaktive Erzeugung von Klängen auf der {\em Objektebene} zu ermöglichen. Wir validieren theoretisch, dass unser Aufmerksamkeitsmechanismus funktional den Segmentierungsmasken zur Testzeit entspricht, wodurch sichergestellt wird, dass das erzeugte Audio mit den ausgewählten Objekten übereinstimmt. Quantitative und qualitative Auswertungen zeigen, dass unser Modell die Vergleichsmodelle übertrifft und eine bessere Übereinstimmung zwischen Objekten und ihren zugehörigen Klängen erreicht. Projektseite: https://tinglok.netlify.app/files/avobject/
Das Annotieren von Daten ist eine zeitaufwändige und kostspielige Aufgabe, aber sie ist für überwachtes maschinelles Lernen unerlässlich. Active Learning (AL) ist eine etablierte Methode, die den menschlichen Beschriftungsaufwand minimiert, indem sie iterativ die informativsten unmarkierten Stichproben für die Expertenannotation auswählt und dadurch die Gesamtklassifikationsleistung verbessert. Obwohl AL seit Jahrzehnten bekannt ist, wird es in realen Anwendungen immer noch selten eingesetzt. Wie in zwei Community-Webumfragen unter der NLP-Community zu AL angegeben, halten zwei Hauptgründe Praktiker weiterhin davon ab, AL zu verwenden: erstens die Komplexität der Einrichtung von AL und zweitens ein Mangel an Vertrauen in seine Wirksamkeit. Wir vermuten, dass beide Gründe denselben Auslöser haben: den großen Hyperparameterraum von AL. Dieser größtenteils unerforschte Hyperparameterraum führt oft zu irreführenden und nicht reproduzierbaren AL-Experimentergebnissen. In dieser Studie haben wir zunächst ein großes Hyperparametergitter mit über 4,6 Millionen Hyperparameterkombinationen zusammengestellt, zweitens die Leistung aller Kombinationen in der bisher größten durchgeführten AL-Studie aufgezeichnet und drittens die Auswirkungen jedes Hyperparameters auf die Experimentergebnisse analysiert. Abschließend geben wir Empfehlungen zum Einfluss jedes Hyperparameters, demonstrieren den überraschenden Einfluss der konkreten AL-Strategieimplementierung und skizzieren ein experimentelles Studiendesign für reproduzierbare AL-Experimente mit minimalem Rechenaufwand, wodurch wir zu einer reproduzierbareren und vertrauenswürdigeren AL-Forschung in der Zukunft beitragen.
Mit der rasanten Entwicklung multimodaler großer Sprachmodelle (MLLMs) werden sie zunehmend als autonome Computer-Nutzungs-Agenten eingesetzt, die in der Lage sind, komplexe Computeraufgaben zu bewältigen. Es stellt sich jedoch eine dringende Frage: Können die Sicherheitsrisikoprinzipien, die für allgemeine MLLMs in Dialogszenarien entwickelt und ausgerichtet wurden, effektiv auf reale Computer-Nutzungsszenarien übertragen werden? Die bestehende Forschung zur Bewertung der Sicherheitsrisiken von MLLM-basierten Computer-Nutzungs-Agenten leidet unter mehreren Einschränkungen: Entweder fehlen realistische interaktive Umgebungen, oder es wird eng auf einen oder wenige spezifische Risikotypen fokussiert. Diese Einschränkungen ignorieren die Komplexität, Variabilität und Vielfalt realer Umgebungen und schränken damit eine umfassende Risikobewertung für Computer-Nutzungs-Agenten ein. Aus diesem Grund stellen wir RiOSWorld vor, einen Benchmark, der entwickelt wurde, um die potenziellen Risiken von MLLM-basierten Agenten während realer Computer-Manipulationen zu bewerten. Unser Benchmark umfasst 492 riskante Aufgaben, die verschiedene Computeranwendungen abdecken, darunter Web, Social Media, Multimedia, Betriebssysteme, E-Mail und Bürosoftware. Wir kategorisieren diese Risiken basierend auf ihrer Risikoquelle in zwei Hauptklassen: (i) Benutzerbedingte Risiken und (ii) Umweltbedingte Risiken. Für die Bewertung betrachten wir Sicherheitsrisiken aus zwei Perspektiven: (i) Risikozielabsicht und (ii) Risikozielerreichung. Umfangreiche Experimente mit multimodalen Agenten auf RiOSWorld zeigen, dass aktuelle Computer-Nutzungs-Agenten in realen Szenarien erheblichen Sicherheitsrisiken ausgesetzt sind. Unsere Ergebnisse unterstreichen die Notwendigkeit und Dringlichkeit der Sicherheitsausrichtung für Computer-Nutzungs-Agenten in realen Computer-Manipulationen und bieten wertvolle Einblicke für die Entwicklung vertrauenswürdiger Computer-Nutzungs-Agenten. Unser Benchmark ist öffentlich verfügbar unter https://yjyddq.github.io/RiOSWorld.github.io/.