papers.description
Wir präsentieren Apriel-1.5-15B-Thinker, ein multimodales Modell zur Wissensverarbeitung mit 15 Milliarden Parametern und offenen Gewichten, das durch ein durchdachtes Trainingsdesign anstatt durch reine Skalierung Spitzenleistungen erzielt. Ausgehend von Pixtral-12B wenden wir eine progressive dreistufige Methodik an: (1) Tiefen-Skalierung, um die Verarbeitungskapazität zu erweitern, ohne ein Pretraining von Grund auf durchzuführen, (2) gestuftes kontinuierliches Pretraining, das zunächst ein grundlegendes Verständnis für Text und Bild entwickelt und dann die visuelle Verarbeitung durch gezielte synthetische Datengenerierung verbessert, die räumliche Strukturen, kompositionelles Verständnis und fein abgestufte Wahrnehmung adressiert, und (3) hochwertiges textbasiertes Supervised Fine-Tuning auf kuratierten Instruktions-Antwort-Paaren mit expliziten Verarbeitungsspuren, die Mathematik, Programmierung, Wissenschaft und Werkzeugnutzung umfassen. Bemerkenswerterweise erzielt unser Modell wettbewerbsfähige Ergebnisse ohne Reinforcement Learning oder Präferenzoptimierung, wodurch der Beitrag unseres datenzentrierten kontinuierlichen Pretraining-Ansatzes isoliert wird. Im Artificial Analysis Intelligence Index erreicht Apriel-1.5-15B-Thinker eine Punktzahl von 52, was DeepSeek-R1-0528 entspricht, obwohl deutlich weniger Rechenressourcen benötigt werden. Über zehn Bild-Benchmarks hinweg liegt seine Leistung im Durchschnitt innerhalb von fünf Punkten von Gemini-2.5-Flash und Claude Sonnet-3.7, eine wichtige Errungenschaft für ein Modell, das innerhalb von Single-GPU-Bereitstellungsbeschränkungen arbeitet. Unsere Ergebnisse zeigen, dass durchdachtes Mid-Training-Design erhebliche Fähigkeitslücken ohne massive Skalierung schließen kann, wodurch Spitzenleistungen in der multimodalen Wissensverarbeitung für Organisationen mit begrenzter Infrastruktur zugänglich werden. Wir veröffentlichen den Modell-Checkpoint, alle Trainingsrezepte und Evaluierungsprotokolle unter der MIT-Lizenz, um die Open-Source-Forschung voranzutreiben.
Große Reasoning-Modelle (LRMs) „denken“, indem sie strukturierte Gedankenketten (Chain-of-Thought, CoT) generieren, bevor sie eine endgültige Antwort liefern. Dennoch fehlt ihnen die Fähigkeit, kritisch über Sicherheitsausrichtung (Safety Alignment) nachzudenken, und sie sind leicht voreingenommen, wenn ein fehlerhafter Prämisse in ihren Denkprozess eingeführt wird. Wir schlagen RECAP (Robust Safety Alignment via Counter-Aligned Prefilling) vor, eine prinzipielle Methode des Reinforcement Learning (RL) für das Post-Training, die Modelle explizit dazu anleitet, fehlerhafte Denkpfade zu überschreiben und auf sichere und hilfreiche Antworten umzuleiten. RECAP trainiert mit einer Mischung aus synthetisch generierten, gegenläufig ausgerichteten CoT-Prefills und Standard-Prompts, erfordert keine zusätzlichen Trainingskosten oder Modifikationen über das herkömmliche Reinforcement Learning from Human Feedback (RLHF) hinaus und verbessert die Sicherheit und Jailbreak-Robustheit erheblich, reduziert Überverweigerung und bewahrt die Kernfähigkeit des Reasonings – alles bei Beibehaltung des Inferenz-Token-Budgets. Umfangreiche Analysen zeigen, dass mit RECAP trainierte Modelle häufiger Selbstreflexion betreiben und unter adaptiven Angriffen robust bleiben, wodurch die Sicherheit auch nach wiederholten Versuchen, ihr Reasoning zu überschreiben, erhalten bleibt.
Visuelle Tokens verbrauchen erhebliche Rechenressourcen in multimodalen großen Modellen (MLLMs), was deren Effizienz erheblich beeinträchtigt. Neuere Arbeiten haben versucht, die Effizienz durch die Komprimierung visueller Tokens während des Trainings zu verbessern, entweder durch Modifikationen an Modellkomponenten oder durch die Einführung zusätzlicher Parameter. Sie übersehen jedoch oft die erhöhte Lernschwierigkeit, die durch eine solche Komprimierung verursacht wird, da der Parameterraum des Modells Schwierigkeiten hat, sich schnell an die erheblichen Störungen im Merkmalsraum anzupassen, die durch die Token-Komprimierung induziert werden. In dieser Arbeit schlagen wir vor, effiziente MLLMs durch Progressive Konsistenzdestillation (EPIC), ein progressives Lernframework, zu entwickeln. Insbesondere durch die Zerlegung der durch die Token-Komprimierung eingeführten Störungen im Merkmalsraum entlang der Token- und Schichtdimensionen führen wir Token-Konsistenzdestillation und Schicht-Konsistenzdestillation ein, mit dem Ziel, die Trainingsschwierigkeit durch die Nutzung von Anleitungen eines Lehrermodells und durch das Verfolgen eines progressiven Lernpfads zu reduzieren. Umfangreiche Experimente demonstrieren die überlegene Effektivität, Robustheit und Generalisierungsfähigkeit unseres vorgeschlagenen Frameworks.
Tiefgehende Forschung hat die Datenanalyse revolutioniert, doch Datenwissenschaftler widmen nach wie vor erhebliche Zeit der manuellen Erstellung von Visualisierungen, was den Bedarf an robuster Automatisierung durch natürliche Sprachabfragen unterstreicht. Aktuelle Systeme haben jedoch Schwierigkeiten mit komplexen Datensätzen, die mehrere Dateien und iterative Verfeinerungen enthalten. Bestehende Ansätze, einschließlich einfacher Einzel- oder Multi-Agenten-Systeme, vereinfachen die Aufgabe oft zu stark, indem sie sich auf die anfängliche Abfrageanalyse konzentrieren, während sie die robuste Handhabung von Datenkomplexität, Codefehlern oder der endgültigen Visualisierungsqualität vernachlässigen. In diesem Papier formulieren wir diese Herausforderung als ein kollaboratives Multi-Agenten-Problem neu. Wir stellen CoDA vor, ein Multi-Agenten-System, das spezialisierte LLM-Agenten für die Metadatenanalyse, Aufgabenplanung, Codegenerierung und Selbstreflexion einsetzt. Wir formalisieren diese Pipeline und zeigen, wie eine metadatenfokussierte Analyse Token-Grenzen umgeht und eine qualitätsgetriebene Verfeinerung Robustheit gewährleistet. Umfangreiche Evaluierungen zeigen, dass CoDA erhebliche Verbesserungen im Gesamtergebnis erzielt und konkurrierende Baselines um bis zu 41,5 % übertrifft. Diese Arbeit zeigt, dass die Zukunft der Visualisierungsautomatisierung nicht in isolierter Codegenerierung liegt, sondern in integrierten, kollaborativen agentenbasierten Workflows.
Konversationelle Sprachmodelle (Spoken Language Models, SLMs) entwickeln sich zu einem vielversprechenden Paradigma für Echtzeit-Sprachinteraktionen. Ihre Fähigkeit, zeitliche Dynamiken wie Timing, Tempo und gleichzeitiges Sprechen zu bewältigen, bleibt jedoch eine kritische und bisher nicht bewertete Herausforderung für die Gesprächsflüssigkeit. Um diese Lücke zu schließen, stellen wir den Game-Time Benchmark vor, ein Framework zur systematischen Bewertung dieser zeitlichen Fähigkeiten. Inspiriert davon, wie Menschen Sprache durch sprachliche Aktivitäten erlernen, besteht Game-Time aus grundlegenden Aufgaben zur Befolgung von Anweisungen und fortgeschrittenen Aufgaben mit zeitlichen Einschränkungen, wie der Einhaltung des Tempos und synchronisierten Antworten. Unsere Bewertung verschiedener SLM-Architekturen zeigt eine deutliche Leistungsdiskrepanz: Während state-of-the-art Modelle grundlegende Aufgaben gut bewältigen, haben viele aktuelle Systeme noch Schwierigkeiten mit der grundlegenden Befolgung von Anweisungen. Noch kritischer ist, dass nahezu alle Modelle unter zeitlichen Einschränkungen erheblich an Leistung einbüßen, was anhaltende Schwächen im Zeitbewusstsein und in der Vollduplex-Interaktion offenbart. Der Game-Time Benchmark bietet eine Grundlage, um zukünftige Forschungen in Richtung einer stärker zeitbewussten konversationellen KI zu lenken. Demos und Datensätze sind auf unserer Projektwebsite https://ga642381.github.io/Game-Time verfügbar.
Die kürzlich eingeführten hardwarebeschleunigten Mikroskalierungsformate für 4-Bit-Gleitkommazahlen wie MXFP4 und NVFP4, die auf NVIDIA- und AMD-GPUs unterstützt werden, versprechen, das Inferenzverfahren für große Sprachmodelle (LLMs) zu revolutionieren. Dennoch bleiben ihre praktischen Vorteile bisher unbewiesen. Wir präsentieren die erste umfassende Studie zu MXFP4 und NVFP4 für die Post-Training-Quantisierung, die Lücken zwischen ihren Versprechungen und der tatsächlichen Leistung aufzeigt. Unsere Analyse zeigt, dass state-of-the-art-Methoden mit FP4 aufgrund von zwei zentralen Problemen kämpfen: (1) Die kleine Gruppengröße von NVFP4 macht traditionelle Techniken zur Ausreißerminderung nachweislich unwirksam; (2) Die Potenz-von-zwei-Skalierungsquantisierung von MXFP4 führt aufgrund hoher induzierter Fehler zu einer erheblichen Genauigkeitsverschlechterung. Um diese Lücke zu schließen, führen wir Micro-Rotated-GPTQ (MR-GPTQ) ein, eine Variante des klassischen GPTQ-Quantisierungsalgorithmus, die den Quantisierungsprozess an die einzigartigen Eigenschaften von FP4 anpasst, indem blockweise Hadamard-Transformationen und format-spezifische Optimierungen verwendet werden. Wir untermauern unseren Vorschlag mit einer Reihe von hochleistungsfähigen GPU-Kerneln, die das MR-GPTQ-Format mit vernachlässigbarem Overhead ermöglichen, indem die Rotation in die Gewichte integriert und die Aktivierungen schnell online berechnet werden. Dies führt zu Beschleunigungen gegenüber FP16 von bis zu 3,6x auf Schichtebene und 2,2x end-to-end auf der NVIDIA B200 sowie 6x auf Schichtebene und 4x end-to-end auf der RTX5090. Unsere umfangreiche empirische Auswertung zeigt, dass MR-GPTQ die state-of-the-art-Genauigkeit erreicht oder übertrifft und MXFP4 erheblich verbessert, sodass es nahe an die Leistung von NVFP4 heranreicht. Wir kommen zu dem Schluss, dass FP4 zwar keine automatische Verbesserung gegenüber INT4 darstellt, aber format-spezialisierte Methoden wie MR-GPTQ eine neue Grenze für Genauigkeits-Leistungs-Kompromisse erschließen können.
Diffusionsbasierte Modelle für die robotische Steuerung, einschließlich Vision-Language-Action (VLA) und Vision-Action (VA) Policies, haben bedeutende Fähigkeiten demonstriert. Dennoch wird ihre Weiterentwicklung durch die hohen Kosten der Beschaffung groß angelegter Interaktionsdatensätze eingeschränkt. Diese Arbeit stellt ein alternatives Paradigma zur Verbesserung der Policy-Leistung ohne zusätzliches Modelltraining vor. Überraschenderweise zeigen wir, dass die zusammengesetzten Policies die Leistung jeder einzelnen Eltern-Policy übertreffen können. Unser Beitrag ist dreifach. Erstens legen wir eine theoretische Grundlage dar, die zeigt, dass die konvexe Zusammensetzung von Verteilungsscores mehrerer Diffusionsmodelle ein überlegenes Ein-Schritt-Funktionsziel im Vergleich zu jedem einzelnen Score ergeben kann. Eine Grönwall-ähnliche Schranke wird dann verwendet, um zu zeigen, dass diese Ein-Schritt-Verbesserung sich durch gesamte Generierungspfade fortsetzt und zu systemischen Leistungssteigerungen führt. Zweitens schlagen wir, motiviert durch diese Ergebnisse, General Policy Composition (GPC) vor, eine trainingsfreie Methode, die die Leistung durch die Kombination der Verteilungsscores mehrerer vortrainierter Policies mittels einer konvexen Kombination und Testzeit-Suche verbessert. GPC ist vielseitig und ermöglicht die Plug-and-Play-Zusammensetzung heterogener Policies, einschließlich VA- und VLA-Modelle sowie solcher, die auf Diffusion oder Flow-Matching basieren, unabhängig von ihren visuellen Eingabemodalitäten. Drittens liefern wir umfangreiche empirische Validierungen. Experimente auf den Benchmarks Robomimic, PushT und RoboTwin sowie reale robotische Bewertungen bestätigen, dass GPC die Leistung und Anpassungsfähigkeit über eine Vielzahl von Aufgaben hinweg konsequent verbessert. Eine weitere Analyse alternativer Kompositionsoperatoren und Gewichtungsstrategien bietet Einblicke in die Mechanismen, die dem Erfolg von GPC zugrunde liegen. Diese Ergebnisse etablieren GPC als eine einfache, aber effektive Methode zur Verbesserung der Steuerungsleistung durch die Nutzung bestehender Policies.
Jüngste Fortschritte in der Selbstverbesserung von Large Language Models (LLMs) haben die Modellfähigkeiten effizient gesteigert, ohne die Kosten, insbesondere in Bezug auf den menschlichen Aufwand, signifikant zu erhöhen. Obwohl dieses Gebiet noch relativ jung ist, birgt seine Ausweitung auf den multimodalen Bereich immenses Potenzial, um diverse Datenquellen zu nutzen und allgemeinere selbstverbessernde Modelle zu entwickeln. Diese Übersichtsarbeit ist die erste, die einen umfassenden Überblick über die Selbstverbesserung in Multimodalen LLMs (MLLMs) bietet. Wir präsentieren eine strukturierte Übersicht der aktuellen Literatur und diskutieren Methoden aus drei Perspektiven: 1) Datensammlung, 2) Datenorganisation und 3) Modelloptimierung, um die weitere Entwicklung der Selbstverbesserung in MLLMs zu fördern. Wir schließen auch häufig verwendete Evaluierungen und nachgelagerte Anwendungen ein. Abschließend skizzieren wir offene Herausforderungen und zukünftige Forschungsrichtungen.
Fortschritte bei großen Sprachmodellen (LLMs) haben eine neue Klasse von selbstentwickelnden Agenten ermöglicht, die sich autonom durch Interaktion mit der Umwelt verbessern und dabei starke Fähigkeiten demonstrieren. Allerdings führt die Selbstentwicklung auch zu neuen Risiken, die von der aktuellen Sicherheitsforschung übersehen wurden. In dieser Arbeit untersuchen wir den Fall, in dem die Selbstentwicklung eines Agenten auf unerwünschte Weise abweicht und zu unerwünschten oder sogar schädlichen Ergebnissen führt. Wir bezeichnen dies als Fehlentwicklung. Um eine systematische Untersuchung zu ermöglichen, bewerten wir die Fehlentwicklung entlang vier zentraler Entwicklungswege: Modell, Gedächtnis, Werkzeug und Arbeitsablauf. Unsere empirischen Ergebnisse zeigen, dass Fehlentwicklung ein weit verbreitetes Risiko darstellt, das sogar Agenten betrifft, die auf erstklassigen LLMs (z. B. Gemini-2.5-Pro) basieren. Im Selbstentwicklungsprozess werden verschiedene aufkommende Risiken beobachtet, wie die Verschlechterung der Sicherheitsausrichtung nach der Anhäufung von Gedächtnisinhalten oder die unbeabsichtigte Einführung von Schwachstellen bei der Erstellung und Wiederverwendung von Werkzeugen. Unseres Wissens ist dies die erste Studie, die Fehlentwicklung systematisch konzeptualisiert und empirische Belege für ihr Auftreten liefert, was die dringende Notwendigkeit neuer Sicherheitsparadigmen für selbstentwickelnde Agenten unterstreicht. Abschließend diskutieren wir potenzielle Minderungsstrategien, um weitere Forschungen zur Entwicklung sichererer und vertrauenswürdigerer selbstentwickelnder Agenten anzuregen. Unser Code und unsere Daten sind unter https://github.com/ShaoShuai0605/Misevolution verfügbar. Warnung: Diese Arbeit enthält Beispiele, die anstößig oder schädlich sein können.
LLMs haben sich als leistungsstarke Werkzeuge zur Interpretation multimodaler Daten etabliert. In der Medizin bieten sie besonderes Potenzial, um große Mengen klinischer Informationen in umsetzbare Erkenntnisse und digitale Gesundheitsanwendungen zu synthetisieren. Eine wesentliche Einschränkung bleibt jedoch ihre Unfähigkeit, Zeitreihen zu verarbeiten. Um diese Lücke zu schließen, stellen wir OpenTSLM vor, eine Familie von Time Series Language Models (TSLMs), die durch die Integration von Zeitreihen als native Modalität in vortrainierte LLMs entwickelt wurden und die Schlussfolgerung über mehrere Zeitreihen beliebiger Länge ermöglichen. Wir untersuchen zwei Architekturen für OpenTSLM. Die erste, OpenTSLM-SoftPrompt, modelliert Zeitreihen implizit, indem lernbare Zeitreihen-Tokens über Soft Prompting mit Text-Tokens verkettet werden. Obwohl parameter-effizient, nehmen wir an, dass explizite Zeitreihenmodellierung besser skaliert und implizite Ansätze übertrifft. Daher führen wir OpenTSLM-Flamingo ein, das Zeitreihen über Cross-Attention mit Text integriert. Wir vergleichen beide Varianten mit Baseline-Modellen, die Zeitreihen als Text-Tokens oder Diagramme behandeln, über eine Reihe von Text-Zeitreihen Chain-of-Thought (CoT)-Schlussfolgerungsaufgaben. Wir stellen drei Datensätze vor: HAR-CoT, Sleep-CoT und ECG-QA-CoT. In allen Fällen übertreffen die OpenTSLM-Modelle die Baselines und erreichen 69,9 F1 in der Schlafphasenklassifizierung und 65,4 in HAR, verglichen mit 9,05 und 52,2 für feinabgestimmte textbasierte Modelle. Bemerkenswerterweise übertreffen sogar 1B-Parameter OpenTSLM-Modelle GPT-4o (15,47 und 2,95). OpenTSLM-Flamingo erreicht eine vergleichbare Leistung wie OpenTSLM-SoftPrompt und übertrifft es bei längeren Sequenzen, während die Speicheranforderungen stabil bleiben. Im Gegensatz dazu wächst der Speicherbedarf von SoftPrompt exponentiell mit der Sequenzlänge und erfordert etwa 110 GB im Vergleich zu 40 GB VRAM beim Training von ECG-QA mit LLaMA-3B. Expertenbewertungen durch Kliniker zeigen starke Schlussfolgerungsfähigkeiten von OpenTSLMs bei ECG-QA. Um weitere Forschung zu ermöglichen, stellen wir den gesamten Code, die Datensätze und Modelle Open-Source zur Verfügung.
Sparse Autoencoder (SAEs) sind eine Technik zur sparsen Zerlegung von neuronalen Netzwerkaktivierungen in menscheninterpretierbare Merkmale. Allerdings leiden aktuelle SAEs unter Merkmalsabsorption, bei der spezialisierte Merkmale Instanzen allgemeiner Merkmale erfassen und dadurch Repräsentationslücken entstehen, sowie unter Merkmalskomposition, bei der unabhängige Merkmale zu zusammengesetzten Repräsentationen verschmelzen. In dieser Arbeit stellen wir Orthogonal SAE (OrtSAE) vor, einen neuartigen Ansatz, der darauf abzielt, diese Probleme durch die Durchsetzung von Orthogonalität zwischen den gelernten Merkmalen zu mildern. Durch die Implementierung eines neuen Trainingsverfahrens, das hohe paarweise Kosinusähnlichkeit zwischen SAE-Merkmalen bestraft, fördert OrtSAE die Entwicklung von entflochtenen Merkmalen, während es linear mit der Größe des SAE skaliert und somit signifikanten Rechenaufwand vermeidet. Wir trainieren OrtSAE über verschiedene Modelle und Schichten hinweg und vergleichen es mit anderen Methoden. Dabei stellen wir fest, dass OrtSAE 9 % mehr eindeutige Merkmale entdeckt, die Merkmalsabsorption (um 65 %) und -komposition (um 15 %) reduziert, die Leistung bei der Entfernung von Scheinkorrelationen verbessert (+6 %) und im Vergleich zu traditionellen SAEs eine vergleichbare Leistung bei anderen nachgelagerten Aufgaben erzielt.
Jüngste Fortschritte bei diffusionsbasierten Text-zu-Bild (T2I)-Modellen haben zu bemerkenswerten Erfolgen bei der Erzeugung hochwertiger Bilder aus textuellen Eingabeaufforderungen geführt. Die Gewährleistung einer genauen Übereinstimmung zwischen dem Text und dem generierten Bild bleibt jedoch eine erhebliche Herausforderung für state-of-the-art Diffusionsmodelle. Um dies zu adressieren, setzen bestehende Studien Reinforcement Learning mit menschlichem Feedback (RLHF) ein, um die T2I-Ausgaben mit menschlichen Präferenzen abzugleichen. Diese Methoden verlassen sich entweder direkt auf gepaarte Bildpräferenzdaten oder erfordern eine gelernte Belohnungsfunktion, die beide stark auf kostspielige, hochwertige menschliche Annotationen angewiesen sind und somit Skalierbarkeitsbeschränkungen unterliegen. In dieser Arbeit stellen wir Text Preference Optimization (TPO) vor, ein Framework, das eine „kostenlose“ Ausrichtung von T2I-Modellen ermöglicht, indem es eine Übereinstimmung ohne gepaarte Bildpräferenzdaten erreicht. TPO funktioniert, indem das Modell darauf trainiert wird, passende Eingabeaufforderungen gegenüber nicht passenden zu bevorzugen, die durch die Störung ursprünglicher Bildunterschriften mithilfe eines großen Sprachmodells konstruiert werden. Unser Framework ist allgemein und kompatibel mit bestehenden präferenzbasierten Algorithmen. Wir erweitern sowohl DPO als auch KTO auf unsere Einstellung, was zu TDPO und TKTO führt. Quantitative und qualitative Bewertungen über mehrere Benchmarks hinweg zeigen, dass unsere Methoden ihre ursprünglichen Gegenstücke konsequent übertreffen und bessere menschliche Präferenzwerte sowie eine verbesserte Text-zu-Bild-Übereinstimmung liefern. Unser Open-Source-Code ist verfügbar unter https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Kleine Vision-Sprach-Modelle (VLMs) bieten eine recheneffiziente Alternative zu größeren Modellen, allerdings auf Kosten schwächerer Generalisierungsfähigkeiten und Leistung bei nachgelagerten Aufgaben. Diese Schwächen könnten durch Testzeit-Skalierungstechniken behoben werden, doch bestehende Methoden sind typischerweise rechenintensiv, was den ressourceneffizienten Designzielen kleiner Modelle widerspricht. Um diese Einschränkungen zu überwinden, schlagen wir zwei neuartige und effiziente Testzeit-Skalierungsstrategien vor, die auf modellinternen Merkmalen basieren und nicht auf externer Überwachung: (i) Testzeit-Augmentierung (TTAug), die mehrere augmentierte Eingaben erzeugt und Ausgaben auf Token-Ebene ohne Parameteraktualisierungen aggregiert, und (ii) Testzeit-Anpassung (TTAdapt), die Modellparameter während der Inferenz mithilfe konsensbasierter Pseudolabels aus TTAug anpasst. Durch umfangreiche Experimente über neun Benchmarks hinweg zeigen wir konsistente Leistungsverbesserungen bei gleichbleibender Recheneffizienz, die für ressourcenbeschränkte Umgebungen geeignet ist. Die Allgemeingültigkeit unseres Ansatzes wird sowohl innerhalb von Modellen unterschiedlicher Skalen als auch über verschiedene VLMs hinweg ohne zusätzliche Anpassung demonstriert.
Das Nachtraining großer Sprachmodelle (LLMs) wird durch die hohen Kosten der Wissensaneignung oder Fehlerkorrektur sowie durch die unbeabsichtigten Nebeneffekte, die häufig beim erneuten Training auftreten, eingeschränkt. Um diese Probleme zu adressieren, stellen wir REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration) vor, ein lebenslanges Bearbeitungsframework, das präzise und kostengünstige Modellaktualisierungen unterstützt, während nicht-zielgerichtetes Wissen erhalten bleibt. REPAIR mildert die Instabilität und Konflikte groß angelegter sequenzieller Bearbeitungen durch einen geschlossenen Feedback-Mechanismus in Kombination mit dynamischem Speichermanagement. Darüber hinaus adressiert REPAIR durch die Integration häufiger Wissensfusion und die Durchsetzung starker Lokalitätsbeschränkungen effektiv die Schwächen traditioneller verteilungsagnostischer Ansätze, die oft unbeabsichtigte Auswirkungen übersehen. Unsere Experimente zeigen, dass REPAIR die Bearbeitungsgenauigkeit über mehrere Modellfamilien hinweg um 10 %–30 % steigert und das Vergessen von Wissen signifikant reduziert. Diese Arbeit führt ein robustes Framework für die Entwicklung zuverlässiger, skalierbarer und kontinuierlich weiterentwickelter LLMs ein.
Die Rekonstruktion von 3D-Szenen und die Synthese neuer Ansichten haben in den letzten Jahren rasante Fortschritte gemacht. Neural Radiance Fields zeigten, dass kontinuierliche volumetrische Radiance Fields eine hochwertige Bildsynthese erreichen können, doch ihre langen Trainings- und Renderingzeiten schränken die Praktikabilität ein. 3D Gaussian Splatting (3DGS) adressierte diese Probleme, indem Szenen mit Millionen von Gaußschen Funktionen dargestellt werden, was Echtzeit-Rendering und schnelle Optimierung ermöglicht. Allerdings sind Gaußsche Primitiven nicht nativ kompatibel mit den meshbasierten Pipelines, die in VR-Headsets und Echtzeit-Grafikanwendungen verwendet werden. Bestehende Lösungen versuchen, Gaußsche Funktionen durch Nachbearbeitung oder zweistufige Pipelines in Meshes umzuwandeln, was die Komplexität erhöht und die visuelle Qualität beeinträchtigt. In dieser Arbeit stellen wir Triangle Splatting+ vor, das direkt Dreiecke, das grundlegende Primitiv der Computergrafik, innerhalb eines differenzierbaren Splatting-Frameworks optimiert. Wir formulieren die Dreiecksparametrisierung, um Konnektivität durch gemeinsame Eckpunkte zu ermöglichen, und entwerfen eine Trainingsstrategie, die undurchsichtige Dreiecke erzwingt. Das endgültige Ergebnis ist sofort in Standard-Grafik-Engines ohne Nachbearbeitung verwendbar. Experimente auf den Mip-NeRF360- und Tanks & Temples-Datensätzen zeigen, dass Triangle Splatting+ state-of-the-art Leistung in der meshbasierten Synthese neuer Ansichten erreicht. Unsere Methode übertrifft frühere Splatting-Ansätze in der visuellen Treue, bleibt dabei effizient und schnell im Training. Darüber hinaus unterstützen die resultierenden halbverbundenen Meshes nachgelagerte Anwendungen wie physikbasierte Simulationen oder interaktive Rundgänge. Die Projektseite ist https://trianglesplatting2.github.io/trianglesplatting2/.
Das Verfassen akademischer Übersichtsarbeiten, die umfangreiche Literatur in eine kohärente und aufschlussreiche Erzählung verdichten, bleibt eine arbeitsintensive und intellektuell anspruchsvolle Aufgabe. Obwohl neuere Ansätze, wie allgemeine DeepResearch-Agenten und spezialisierte Methoden für Übersichtsarbeiten, automatisch Übersichten generieren können (auch bekannt als LLM4Survey), erreichen ihre Ergebnisse oft nicht das Niveau menschlicher Arbeiten, und es fehlt ein rigoroser, leserorientierter Benchmark, der ihre Mängel umfassend aufzeigt. Um diese Lücke zu schließen, schlagen wir ein feinkörniges, quizgesteuertes Evaluationsframework namens SurveyBench vor, das folgende Merkmale aufweist: (1) typische Übersichtsthemen, die aus den letzten 11.343 arXiv-Papieren und den entsprechenden 4.947 hochwertigen Übersichtsarbeiten stammen; (2) eine vielschichtige Metrikhierarchie, die die Qualität der Gliederung (z.B. Abdeckungsbreite, logische Kohärenz), die Qualität des Inhalts (z.B. Synthesegranularität, Klarheit der Erkenntnisse) und die nicht-textuelle Reichhaltigkeit bewertet; und (3) ein duales Evaluationsprotokoll, das inhaltsbasierte und quizbasierte Beantwortbarkeitstests umfasst, die explizit an den Informationsbedürfnissen der Leser ausgerichtet sind. Die Ergebnisse zeigen, dass SurveyBench bestehende LLM4Survey-Ansätze effektiv herausfordert (z.B. im Durchschnitt 21 % schlechter als menschliche Arbeiten in der inhaltsbasierten Bewertung).
Standard diskrete Diffusionsmodelle behandeln alle unbeobachteten Zustände identisch, indem sie sie auf ein absorbierendes [MASK]-Token abbilden. Dies erzeugt eine „Informationslücke“, in der semantische Informationen, die aus ungemaskten Tokens abgeleitet werden könnten, zwischen den Denoising-Schritten verloren gehen. Wir stellen Continuously Augmented Discrete Diffusion (CADD) vor, ein Framework, das den diskreten Zustandsraum durch eine gekoppelte Diffusion in einem kontinuierlichen latenten Raum erweitert. Dies führt zu abgestuften, schrittweise korrumpierten Zuständen, in denen maskierte Tokens durch verrauschte, aber informative latente Vektoren anstelle von kollabierten „Informationslücken“ dargestellt werden. Bei jedem Rückwärtsschritt kann CADD den kontinuierlichen latenten Raum als semantischen Hinweis nutzen, um das diskrete Denoising zu steuern. Das Design ist klar und kompatibel mit bestehenden Trainingsmethoden für diskrete Diffusion. Zum Zeitpunkt der Stichprobenentnahme ermöglichen die Stärke und die Wahl des Schätzers für den kontinuierlichen latenten Vektor einen kontrollierten Kompromiss zwischen Modus-Abdeckung (Erzeugung vielfältiger Ausgaben) und Modus-Suche (Erzeugung kontextuell präziser Ausgaben). Empirisch zeigen wir, dass CADD die generative Qualität gegenüber maskenbasierten Diffusionsmodellen in den Bereichen Textgenerierung, Bildsynthese und Codemodellierung verbessert, mit konsistenten Gewinnen sowohl in qualitativen als auch in quantitativen Metriken im Vergleich zu starken diskreten Baselines.
Wir untersuchen, was tatsächlich funktioniert und was nicht, wenn es darum geht, große Sprachmodelle als Agenten durch mehrstufiges Reinforcement Learning zu trainieren. Trotz rasanter Fortschritte sind bestehende Frameworks und Definitionen fragmentiert, und es gibt keine systematische Formulierung oder Analyse, welche Designentscheidungen über verschiedene Aufgaben hinweg relevant sind. Wir schließen diese Lücke, indem wir zunächst den Designraum in drei miteinander verbundene Säulen unterteilen – Umgebung, Belohnung und Policy – und empirisch ein Rezept für das Training von LLM-Agenten in situierten textuellen Domänen ableiten. Insbesondere testen wir TextWorld und ALFWorld, beliebte Domänen zur Überprüfung von situiertem verkörpertem Denken, sowie SWE-Gym für Aufgaben im Stil der Softwareentwicklung. (i) Für die Umgebung analysieren wir die Auswirkungen der Aufgabenkomplexität in Bezug auf die Größe der Zustands- und Aktionsräume sowie die Länge der optimalen Lösung und stellen fest, dass selbst einfache Umgebungen innerhalb einer Domäne Aufschluss darüber geben können, wie gut ein Agent auf komplexere Aufgaben verallgemeinern kann. (ii) Für die Belohnung untersuchen wir die relative Sparsamkeit der Belohnung und beobachten, dass zwar dichte Belohnungen auf Turn-Ebene das Training beschleunigen, Leistung und Stabilität jedoch stark von der Wahl des RL-Algorithmus abhängen. (iii) Und für die Policy des Agenten erforschen wir das Zusammenspiel zwischen Belohnungssparsamkeit und verzerrten (PPO, GRPO) sowie unverzerrten (RLOO) Policy-Gradienten-Methoden und zeigen darüber hinaus, wie das optimale Verhältnis zwischen Supervised Fine-tuning (SFT) und RL-Training bei einem festen Budget gefunden werden kann. Wir verdichten diese Erkenntnisse in ein Trainingsrezept, das die gemeinsame Gestaltung über die drei Säulen hinweg leitet und so die Forschung und praktische Arbeit im Bereich des mehrstufigen agentenbasierten Reinforcement Learning erleichtert. Code: https://github.com/pearls-lab/meow-tea-taro
Wirbelsäulenerkrankungen betreffen weltweit 619 Millionen Menschen und sind eine der Hauptursachen für Behinderungen. Dennoch wird die KI-gestützte Diagnose durch den Mangel an modalitätsübergreifenden, wirbelsäulenspezifischen Datensätzen eingeschränkt. Die klinische Entscheidungsfindung bei Wirbelsäulenerkrankungen erfordert eine anspruchsvolle Analyse von Röntgen-, CT- und MRT-Bildern auf spezifischen Wirbelebenen. Der Fortschritt wird jedoch durch das Fehlen von nachvollziehbaren, klinisch fundierten Instruktionsdaten und standardisierten, wirbelsäulenspezifischen Benchmarks behindert. Um dies zu beheben, stellen wir SpineMed vor, ein Ökosystem, das in Zusammenarbeit mit praktizierenden Wirbelsäulenchirurgen entwickelt wurde. Es umfasst SpineMed-450k, den ersten groß angelegten Datensatz, der explizit für die Analyse auf Wirbelebene über verschiedene Bildgebungsmodalitäten mit über 450.000 Instruktionsinstanzen konzipiert wurde, sowie SpineBench, ein klinisch fundiertes Bewertungsframework. SpineMed-450k wurde aus verschiedenen Quellen kuratiert, darunter Lehrbücher, Leitlinien, offene Datensätze und etwa 1.000 anonymisierte Krankenhausfälle, unter Verwendung einer klinikerintegrierten Pipeline mit einer zweistufigen LLM-Generierungsmethode (Entwurf und Überarbeitung), um hochwertige, nachvollziehbare Daten für Frage-Antwort-Systeme, mehrstufige Konsultationen und Berichterstellung zu gewährleisten. SpineBench bewertet Modelle anhand klinisch relevanter Kriterien, darunter Ebenenidentifikation, Pathologiebewertung und chirurgische Planung. Unsere umfassende Bewertung mehrerer kürzlich entwickelter großer visuell-sprachlicher Modelle (LVLMs) auf SpineBench zeigt systematische Schwächen bei der feingranularen, ebenenspezifischen Analyse. Im Gegensatz dazu zeigt unser auf SpineMed-450k feinabgestimmtes Modell durchgängige und signifikante Verbesserungen bei allen Aufgaben. Klinikerbewertungen bestätigen die diagnostische Klarheit und praktische Nützlichkeit der Modellausgaben.
Während die jüngsten Entwicklungen bei großen Sprachmodellen (LLMs) erfolgreich generative Empfehlungssysteme mit natürlichen Sprachinteraktionen ermöglicht haben, ist ihr Empfehlungsverhalten begrenzt, wodurch andere einfachere, aber entscheidende Komponenten wie Metadaten- oder Attributfilterung im System untergenutzt bleiben. Wir schlagen ein LLM-basiertes Musikempfehlungssystem mit Werkzeugaufrufen vor, das als einheitliche Retrieval-Reranking-Pipeline dient. Unser System positioniert ein LLM als ein End-to-End-Empfehlungssystem, das die Benutzerabsicht interpretiert, Werkzeugaufrufe plant und spezialisierte Komponenten orchestriert: boolesche Filter (SQL), spärliches Retrieval (BM25), dichtes Retrieval (Embedding-Ähnlichkeit) und generatives Retrieval (semantische IDs). Durch Werkzeugplanung sagt das System voraus, welche Arten von Werkzeugen verwendet werden sollen, ihre Ausführungsreihenfolge und die benötigten Argumente, um Musik zu finden, die den Benutzerpräferenzen entspricht. Dabei unterstützt es diverse Modalitäten und integriert nahtlos mehrere Datenbankfilterungsmethoden. Wir zeigen, dass dieser einheitliche Werkzeugaufruf-Rahmen in verschiedenen Empfehlungsszenarien wettbewerbsfähige Leistungen erzielt, indem er selektiv geeignete Retrieval-Methoden basierend auf Benutzeranfragen einsetzt, und skizzieren damit ein neues Paradigma für konversationelle Musikempfehlungssysteme.
GUI-Grounding, die Aufgabe, natürliche Sprachbefehle auf Pixelkoordinaten abzubilden, ist entscheidend für autonome Agenten, bleibt jedoch für aktuelle Vision-Language-Modelle (VLMs) eine Herausforderung. Der zentrale Engpass ist die zuverlässige Abbildung von Bildausschnitten auf Pixel, die bei der Extrapolation auf hochauflösende Displays, die während des Trainings nicht gesehen wurden, versagt. Aktuelle Ansätze generieren Koordinaten direkt als Text-Token aus visuellen Merkmalen, wodurch das Modell gezwungen wird, komplexe Position-zu-Pixel-Abbildungen implizit zu inferieren; infolgedessen nimmt die Genauigkeit ab und Fehler häufen sich bei neuen Auflösungen. Wir adressieren dies mit zwei komplementären Innovationen. Erstens dienen RULER-Token als explizite Koordinatenmarker, die es dem Modell ermöglichen, Positionen ähnlich wie Gitternetzlinien auf einer Karte zu referenzieren und Koordinaten anzupassen, anstatt sie von Grund auf zu generieren. Zweitens verbessert Interleaved MRoPE (I-MRoPE) die räumliche Kodierung, indem sichergestellt wird, dass Breiten- und Höhendimensionen gleichberechtigt repräsentiert werden, was die Asymmetrie standardmäßiger Positionsschemata behebt. Experimente auf ScreenSpot, ScreenSpot-V2 und ScreenSpot-Pro zeigen konsistente Verbesserungen in der Grounding-Genauigkeit, mit den größten Fortschritten bei hochauflösenden Benutzeroberflächen. Indem wir explizite räumliche Anleitung bieten, anstatt uns auf implizites Lernen zu verlassen, ermöglicht unser Ansatz zuverlässigere GUI-Automatisierung über verschiedene Auflösungen und Plattformen hinweg.
Web-Agenten, die von großen Sprachmodellen (LLMs) angetrieben werden, müssen umfangreiche Webseiten-Beobachtungen verarbeiten, um Benutzerziele zu erreichen; diese Seiten überschreiten oft Zehntausende von Tokens. Dies führt zur Sättigung der Kontextgrenzen und erhöht die Rechenkosten; darüber hinaus setzt die Verarbeitung vollständiger Seiten die Agenten Sicherheitsrisiken wie Prompt-Injection aus. Bestehende Beschneidungsstrategien verwerfen entweder relevante Inhalte oder behalten irrelevanten Kontext bei, was zu suboptimalen Aktionsvorhersagen führt. Wir stellen FocusAgent vor, einen einfachen, aber effektiven Ansatz, der einen leichtgewichtigen LLM-Retriever nutzt, um die relevantesten Zeilen aus Accessibility-Tree (AxTree)-Beobachtungen zu extrahieren, geleitet von den Aufgabenzielen. Durch das Beschneiden von Rauschen und irrelevanten Inhalten ermöglicht FocusAgent effizientes Schlussfolgern und reduziert gleichzeitig die Anfälligkeit für Injection-Angriffe. Experimente auf den Benchmarks WorkArena und WebArena zeigen, dass FocusAgent die Leistung starker Baselines erreicht, während die Beobachtungsgröße um über 50 % reduziert wird. Darüber hinaus verringert eine Variante von FocusAgent die Erfolgsrate von Prompt-Injection-Angriffen, einschließlich Banner- und Pop-up-Angriffen, signifikant, während die Aufgabenleistung in angriffsfreien Umgebungen erhalten bleibt. Unsere Ergebnisse verdeutlichen, dass zielgerichtete LLM-basierte Retrieval-Strategien eine praktische und robuste Methode sind, um effiziente, effektive und sichere Web-Agenten zu entwickeln.
Seit der Veröffentlichung von Deepseek-R1 ist Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zu einem zentralen Ansatz für das Training großer Sprachmodelle (LLMs) bei Aufgaben des logischen Schließens geworden. Aktuelle Arbeiten haben sich weitgehend auf die Modifikation von Verlustfunktionen konzentriert, um RLVR effizienter und effektiver zu gestalten. In diesem Artikel schlagen wir, motiviert durch Studien zum „Overthinking“ in LLMs, Length-aware Sampling for Policy Optimization (LSPO) vor, einen neuartigen Meta-RLVR-Algorithmus, der Trainingsdaten in jedem Schritt dynamisch basierend auf der durchschnittlichen Antwortlänge auswählt. Wir evaluieren LSPO über mehrere Basismodelle und Datensätze hinweg und zeigen, dass es die Lerneffektivität konsequent verbessert. Zusätzlich führen wir eine detaillierte Ablationsstudie durch, um alternative Möglichkeiten zur Einbindung von Längensignalen in das dynamische Sampling zu untersuchen, wodurch weitere Erkenntnisse gewonnen und vielversprechende Richtungen für zukünftige Forschung aufgezeigt werden.
Mehrfache Prompt-Injection-Angriffe wurden gegen Web-Agenten vorgeschlagen. Gleichzeitig wurden verschiedene Methoden entwickelt, um allgemeine Prompt-Injection-Angriffe zu erkennen, jedoch wurde keine davon systematisch für Web-Agenten evaluiert. In dieser Arbeit schließen wir diese Lücke, indem wir die erste umfassende Benchmark-Studie zur Erkennung von Prompt-Injection-Angriffen, die auf Web-Agenten abzielen, vorstellen. Wir beginnen mit einer feingranularen Kategorisierung solcher Angriffe basierend auf dem Bedrohungsmodell. Anschließend erstellen wir Datensätze, die sowohl bösartige als auch gutartige Beispiele enthalten: bösartige Textsegmente, die durch verschiedene Angriffe generiert wurden, gutartige Textsegmente aus vier Kategorien, bösartige Bilder, die durch Angriffe erzeugt wurden, und gutartige Bilder aus zwei Kategorien. Daraufhin systematisieren wir sowohl textbasierte als auch bildbasierte Erkennungsmethoden. Schließlich evaluieren wir deren Leistung in verschiedenen Szenarien. Unsere zentralen Erkenntnisse zeigen, dass einige Detektoren Angriffe, die auf expliziten textuellen Anweisungen oder sichtbaren Bildverfälschungen beruhen, mit mäßiger bis hoher Genauigkeit identifizieren können, jedoch weitgehend versagen, wenn Angriffe explizite Anweisungen auslassen oder unmerkliche Verfälschungen verwenden. Unsere Datensätze und der Code sind unter folgender Adresse verfügbar: https://github.com/Norrrrrrr-lyn/WAInjectBench.
Die aktuelle Entwicklung großer Sprachmodelle (LLMs) behandelt Problemlösung und Präferenzabstimmung als separate Herausforderungen, wobei zunächst die objektive Korrektheit und dann die Ausrichtung an aggregierten menschlichen Präferenzen optimiert wird. Dieses Paradigma versagt in Anwendungen, die mit Menschen interagieren, da die korrekte Lösung eines Problems unzureichend ist, wenn die Antwort nicht den Bedürfnissen des Nutzers entspricht. Diese Herausforderung verschärft sich in Just-in-Time-Szenarien, in denen aufgrund von Cold-Start-Bedingungen oder Datenschutzbeschränkungen keine vorherige Nutzerinteraktionshistorie existiert. LLMs müssen identifizieren, was sie über die Präferenzen des Nutzers nicht wissen, strategisch Präferenzwerte durch Befragung ermitteln und dann ihre Denkprozesse und Antworten entsprechend anpassen – eine komplexe Kette kognitiver Prozesse, die wir als personalisiertes Denken bezeichnen. Wir stellen PREFDISCO vor, eine Evaluationsmethodik, die statische Benchmarks in interaktive Personalisierungsaufgaben transformiert, indem psychologisch fundierte Personas mit spärlichen Präferenzen verwendet werden. Unser Framework schafft Szenarien, in denen identische Fragen unterschiedliche Denkketten erfordern, abhängig vom Nutzerkontext, da optimale Erklärungsansätze je nach individuellem Fachwissen und Präferenzen variieren, während die faktische Genauigkeit gewahrt bleibt. Die Evaluierung von 21 Spitzenmodellen über 10 Aufgaben zeigt, dass 29,0 % der naiven Personalisierungsversuche eine schlechtere Präferenzabstimmung erzielen als generische Antworten, doch generische Antworten erfüllen auch nicht effektiv die individuellen Nutzerbedürfnisse. Diese Ergebnisse legen nahe, dass personalisiertes Denken eine gezielte Entwicklung erfordert und nicht natürlich entsteht. PREFDISCO etabliert personalisiertes Denken als messbare Forschungsfront und offenbart grundlegende Grenzen in den interaktiven Fähigkeiten aktueller LLMs, wodurch eine Grundlage für die Entwicklung von Systemen geschaffen wird, die sich in Bildung, Gesundheitswesen und technischen Bereichen, in denen Personalisierung kritisch ist, an individuelle Nutzer anpassen können.
Die Optimierung diskreter Diffusionsmodelle (DDM) mit Belohnungen bleibt eine Herausforderung: Das nicht-autoregressive Paradigma macht Importance Sampling undurchführbar und Rollouts komplex, was verstärkende Lernmethoden wie Group Relative Policy Optimization (GRPO) vor Rätsel stellt. In dieser Studie führen wir MaskGRPO ein, den ersten praktikablen Ansatz, der skalierbares multimodales verstärkendes Lernen in diskreter Diffusion mit effektivem Importance Sampling und modalitätsspezifischen Anpassungen ermöglicht. Zu diesem Zweck klären wir zunächst die theoretische Grundlage für DDMs, was den Aufbau eines Importance-Schätzers erleichtert, der wertvolle Token-Schwankungen für Gradientenupdates erfasst. Anschließend haben wir die Rollout-Methode für visuelle Sequenzen sorgfältig angepasst, was vielfältige Vervollständigungen und zuverlässige Optimierungsgradienten liefert. Auf Grundlage von mathematischen Beweisführungen, Codierungs- und visuellen Generierungsbenchmarks ermöglicht MaskGRPO stabilere und effizientere Updates, was zu einer stärkeren Leistung in der Beweisführung und einer besseren Generierungsqualität führt. Diese Studie etabliert MaskGRPO als einen systematischen Policy-Optimierungsansatz und den ersten praktischen Weg für diskretisierte visuelle Diffusion.
Der Gradientenabstieg hat sich als leistungsstarke und effektive Technik für die Optimierung in zahlreichen Anwendungen des maschinellen Lernens bewährt. Jüngste Fortschritte in der Computational Neuroscience haben jedoch gezeigt, dass das Lernen im Rahmen der Standardformulierung des Gradientenabstiegs nicht mit dem Lernen in biologischen Systemen übereinstimmt. Dies hat interessante Ansätze für die Entwicklung biologisch inspirierter Lerntechniken eröffnet. Ein solcher Ansatz ist von Dales Gesetz inspiriert, das besagt, dass inhibitorische und exzitatorische Synapsen ihre Rollen während des Lernprozesses nicht tauschen. Das daraus resultierende exponentielle Gradientenabstiegs-Optimierungsschema führt zu log-normal verteilten synaptischen Gewichten. Interessanterweise ist die Dichte, die die Fokker-Planck-Gleichung zur stochastischen Differentialgleichung (SDE) mit geometrischer Brownscher Bewegung (GBM) erfüllt, die log-normale Dichte. Indem wir diese Verbindung nutzen, beginnen wir mit der SDE, die die geometrische Brownsche Bewegung beschreibt, und zeigen, dass die Diskretisierung der entsprechenden zeitumgekehrten SDE eine multiplikative Aktualisierungsregel liefert, die überraschenderweise mit der Stichprobenäquivalenz des exponentiellen Gradientenabstiegs-Updates übereinstimmt, das auf Dales Gesetz basiert. Darüber hinaus schlagen wir einen neuen Formalismus für die multiplikative Denoising-Score-Matching-Methode vor, der die von Hyvärinen für nicht-negative Daten vorgeschlagene Verlustfunktion umfasst. Tatsächlich sind log-normal verteilte Daten positiv, und der vorgeschlagene Score-Matching-Formalismus erweist sich als natürliche Wahl. Dies ermöglicht das Training von Score-basierten Modellen für Bilddaten und führt zu einem neuartigen multiplikativen Aktualisierungsschema für die Stichprobengenerierung ausgehend von einer log-normalen Dichte. Experimentelle Ergebnisse auf den MNIST-, Fashion MNIST- und Kuzushiji-Datensätzen demonstrieren die generative Fähigkeit des neuen Schemas. Nach unserem besten Wissen ist dies das erste Beispiel eines biologisch inspirierten generativen Modells, das multiplikative Aktualisierungen verwendet und auf geometrischer Brownscher Bewegung basiert.
Retrieval-Augmented Generation (RAG) kombiniert Dokumentenabruf mit großen Sprachmodellen (LLMs). Während die Skalierung von Generatoren die Genauigkeit verbessert, erhöht sie auch die Kosten und schränkt die Einsatzfähigkeit ein. Wir untersuchen eine orthogonale Achse: die Vergrößerung des Korpus des Retrievers, um die Abhängigkeit von großen LLMs zu verringern. Experimentelle Ergebnisse zeigen, dass die Skalierung des Korpus RAG konsequent stärkt und oft als Ersatz für die Vergrößerung der Modellgröße dienen kann, obwohl mit abnehmenden Erträgen bei größeren Skalen. Kleine und mittelgroße Generatoren, die mit größeren Korpora gepaart sind, erreichen oft ähnliche Ergebnisse wie viel größere Modelle mit kleineren Korpora; mittelgroße Modelle profitieren tendenziell am meisten, während winzige und große Modelle weniger Vorteile haben. Unsere Analyse zeigt, dass die Verbesserungen hauptsächlich auf eine erhöhte Abdeckung von antwortrelevanten Passagen zurückzuführen sind, während die Nutzungseffizienz weitgehend unverändert bleibt. Diese Erkenntnisse etablieren einen prinzipiellen Kompromiss zwischen Korpus und Generator: Die Investition in größere Korpora bietet einen effektiven Weg zu einem stärkeren RAG, der oft mit der Vergrößerung des LLM selbst vergleichbar ist.
Generative Videomodelle demonstrieren beeindruckende Text-zu-Video-Fähigkeiten, was ihre weitverbreitete Anwendung in vielen realen Anwendungen vorantreibt. Ähnlich wie große Sprachmodelle (LLMs) neigen jedoch auch Videogenerierungsmodelle dazu, Halluzinationen zu erzeugen, indem sie plausible Videos produzieren, selbst wenn diese faktisch falsch sind. Obwohl die Unsicherheitsquantifizierung (UQ) von LLMs in früheren Arbeiten ausführlich untersucht wurde, existiert keine UQ-Methode für Videomodelle, was kritische Sicherheitsbedenken aufwirft. Unseres Wissens stellt diese Arbeit die erste Forschung zur Quantifizierung der Unsicherheit von Videomodellen dar. Wir präsentieren ein Framework zur Unsicherheitsquantifizierung von generativen Videomodellen, das besteht aus: (i) einer Metrik zur Bewertung der Kalibrierung von Videomodellen basierend auf robuster Rangkorrelationsschätzung ohne strenge Modellierungsannahmen; (ii) einer Black-Box-UQ-Methode für Videomodelle (bezeichnet als S-QUBED), die latente Modellierung nutzt, um die prädiktive Unsicherheit rigoros in ihre aleatorischen und epistemischen Komponenten zu zerlegen; und (iii) einem UQ-Datensatz, um die Kalibrierung in Videomodellen zu benchmarken. Durch die Konditionierung der Generierungsaufgabe im latenten Raum entwirren wir Unsicherheiten, die aufgrund vager Aufgabenbeschreibungen entstehen, von solchen, die auf mangelndem Wissen beruhen. Durch umfangreiche Experimente mit Benchmark-Videodatensätzen zeigen wir, dass S-QUBED kalibrierte Gesamtunsicherheitsschätzungen berechnet, die negativ mit der Aufgabengenauigkeit korrelieren, und effektiv die aleatorischen und epistemischen Bestandteile berechnet.
Vorherrschende Video-zu-Audio (V2A)-Generierungsmodelle arbeiten offline und gehen davon aus, dass eine gesamte Videosequenz oder Teile von Bildern im Voraus verfügbar sind. Dies schränkt ihre Verwendung in interaktiven Anwendungen wie der Live-Inhaltserstellung und aufstrebenden generativen Weltmodellen erheblich ein. Um diese Lücke zu schließen, führen wir die neuartige Aufgabe der frame-basierten Online-V2A-Generierung ein, bei der ein Modell autoregressiv Audio aus Video erzeugt, ohne Zugriff auf zukünftige Videobilder zu haben. Darüber hinaus präsentieren wir SoundReactor, das unseres Wissens nach der erste einfache, aber effektive Rahmen ist, der speziell für diese Aufgabe entwickelt wurde. Unser Design erzwingt End-to-End-Kausalität und zielt auf eine geringe Latenz pro Frame mit audiovisueller Synchronisation ab. Das Rückgrat unseres Modells ist ein dekodierender kausaler Transformer über kontinuierliche Audio-Latents. Für die visuelle Konditionierung nutzt es Raster- (Patch-) Merkmale, die aus der kleinsten Variante des DINOv2-Vision-Encoders extrahiert werden und pro Frame in ein einzelnes Token aggregiert werden, um End-to-End-Kausalität und Effizienz zu gewährleisten. Das Modell wird durch ein Diffusions-Pre-Training gefolgt von einer Konsistenz-Feinabstimmung trainiert, um die Decodierung des Diffusions-Kopfs zu beschleunigen. Auf einem Benchmark mit diversen Gameplay-Videos von AAA-Titeln erzeugt unser Modell erfolgreich semantisch und zeitlich abgestimmtes, hochwertiges Full-Band-Stereo-Audio, was sowohl durch objektive als auch durch menschliche Bewertungen validiert wurde. Darüber hinaus erreicht unser Modell eine geringe Latenz auf Wellenformebene pro Frame (26,3 ms mit dem Kopf NFE=1, 31,5 ms mit NFE=4) bei 30FPS, 480p-Videos unter Verwendung eines einzelnen H100. Demobeispiele sind verfügbar unter https://koichi-saito-sony.github.io/soundreactor/.
Mit Diffusions- und Flussanpassungsmodellen, die Spitzenleistungen in der Generierung erzielen, hat sich das Interesse der Gemeinschaft nun darauf verlagert, die Inferenzzeit zu reduzieren, ohne die Probenqualität zu beeinträchtigen. Konsistenzmodelle (Consistency Models, CMs), die darauf trainiert sind, konsistent auf Diffusions- oder Wahrscheinlichkeitsfluss-gewöhnlichen Differentialgleichungspfaden (PF-ODE) zu sein, ermöglichen eine ein- oder zweistufige Fluss- oder Diffusionsabtastung. Allerdings erfordern CMs typischerweise ein langwieriges Training mit großen Batch-Größen, um eine konkurrenzfähige Probenqualität zu erreichen. In diesem Artikel untersuchen wir die Trainingsdynamik von CMs nahe der Konvergenz und entdecken, dass die Tangenten der CMs – die Aktualisierungsrichtungen der CM-Ausgaben – recht oszillierend sind, in dem Sinne, dass sie parallel zur Datenmannigfaltigkeit verlaufen und nicht auf diese zusteuern. Um oszillierende Tangenten zu mildern, schlagen wir eine neue Verlustfunktion vor, die als Mannigfaltigkeits-Feature-Distanz (Manifold Feature Distance, MFD) bezeichnet wird und mannigfaltigkeitsausgerichtete Tangenten liefert, die auf die Datenmannigfaltigkeit zeigen. Folglich kann unsere Methode – genannt Align Your Tangent (AYT) – das CM-Training um Größenordnungen beschleunigen und sogar die gelernte wahrgenommene Bildpatch-Ähnlichkeitsmetrik (Learned Perceptual Image Patch Similarity, LPIPS) übertreffen. Darüber hinaus stellen wir fest, dass unser Verlust das Training mit extrem kleinen Batch-Größen ermöglicht, ohne die Probenqualität zu beeinträchtigen. Code: https://github.com/1202kbs/AYT
Multimodale Large Language Models (MLLMs) haben auf allgemeinen visuellen Benchmarks starke Leistungen erzielt, zeigen jedoch Schwierigkeiten bei Out-of-Distribution (OOD)-Aufgaben in spezialisierten Domänen wie der medizinischen Bildgebung, wo annotierte Daten begrenzt und kostspielig sind. Wir stellen LEAML vor, ein label-effizientes Adaptionsframework, das sowohl knappe annotierte VQA-Beispiele als auch reichlich unannotierte Bilder nutzt. Unser Ansatz generiert domänenrelevante pseudo-Frage-Antwort-Paare für unannotierte Daten mithilfe eines QA-Generators, der durch Caption-Distillation regularisiert wird. Wichtig ist, dass wir selektiv nur diejenigen Neuronen aktualisieren, die für das Frage-Antworten am relevantesten sind, wodurch der QA-Generator effizient domänenspezifisches Wissen während der Distillation erwerben kann. Experimente zur gastrointestinalen Endoskopie und Sport-VQA zeigen, dass LEAML unter minimaler Supervision konsistent das Standard-Fine-Tuning übertrifft, was die Effektivität unseres vorgeschlagenen LEAML-Frameworks unterstreicht.
Die beeindruckenden Leistungssteigerungen moderner Sprachmodelle beruhen derzeit auf der Skalierung von Parametern: größere Modelle speichern mehr Weltwissen und zeigen bessere Schlussfolgerungsfähigkeiten. Dennoch ist es unnötig, das gesamte Weltwissen in Parametern zu komprimieren, da nur ein Bruchteil davon pro Prompt verwendet wird, und es ist unpraktisch für Edge-Geräte mit begrenztem Speicher und Rechenleistung während der Inferenz. Wir beheben diesen Mangel durch eine speichererweiterte Architektur und eine Vorabtrainingsstrategie, die mit bestehenden Hardware-Paradigmen kompatibel ist. Wir stellen kleine Sprachmodelle vor, die auf große hierarchische parametrische Speicherbanken zugreifen, die Weltwissen kodieren. Während des Vorabtrainings und der Inferenz holen wir einen kleinen, kontextabhängigen Speicherblock ab und fügen ihn dem Modell hinzu. Unser Vorabtraining lernt, langfristiges Weltwissen in den Speicherparametern zu speichern, während das kleine Sprachmodell als Anker fungiert, der allgemeines Wissen und allgemeine Schlussfolgerungsfähigkeiten erfasst. Durch Experimente im Billionen-Token-Maßstab zeigen wir signifikante Verbesserungen: Ein Modell mit 160 Millionen Parametern, das mit einem 18 Millionen Parameter großen Speicher aus einer 4,6 Milliarden Parameter umfassenden Speicherbank erweitert wird, erreicht eine vergleichbare Leistung wie ein reguläres Modell mit mehr als doppelt so vielen Parametern. Durch umfangreiche Experimente untersuchen wir den optimalen Typ und die optimale Größe parametrischer Speicher in Transformern und skalieren sie auf über 21 Milliarden Parameter. Wir stellen fest, dass unsere vorgeschlagenen hierarchischen Feed-Forward-Speicher robust über verschiedene Transformer-Architekturen hinweg funktionieren, unabhängig davon, ob sie während des Vorabtrainings oder nachträglich hinzugefügt werden.
Die Softwareentwicklung ist stark auf umfangreiche Unit-Tests angewiesen, was die Effizienz der automatisierten Unit-Test-Generierung (UTG) besonders wichtig macht. Die meisten bestehenden LLMs (Large Language Models) generieren jedoch Testfälle Token für Token in jedem Vorwärtsdurchlauf, was zu einer ineffizienten UTG führt. Kürzlich sind diffusionsbasierte LLMs (dLLMs) aufgetaucht, die vielversprechende parallele Generierungsfähigkeiten bieten und ein großes Potenzial für eine effiziente UTG zeigen. Trotz dieses Vorteils ist ihre Anwendung in der UTG durch einen klaren Kompromiss zwischen Effizienz und Testqualität eingeschränkt, da die Erhöhung der Anzahl der in jedem Schritt generierten Token oft zu einem starken Qualitätsabfall der Testfälle führt. Um diese Einschränkung zu überwinden, stellen wir DiffTester vor, ein Beschleunigungsframework, das speziell für dLLMs in der UTG entwickelt wurde. Die zentrale Idee von DiffTester ist, dass Unit-Tests, die dieselbe Fokusmethode anvisieren, oft wiederkehrende strukturelle Muster aufweisen. Durch die dynamische Identifikation dieser gemeinsamen Muster mittels Abstract-Syntax-Tree-Analyse während der Generierung erhöht DiffTester adaptiv die Anzahl der in jedem Schritt produzierten Token, ohne die Qualität der Ausgabe zu beeinträchtigen. Um eine umfassende Bewertung zu ermöglichen, erweitern wir das ursprüngliche TestEval-Benchmark, das auf Python beschränkt war, durch die Einführung zusätzlicher Programmiersprachen wie Java und C++. Umfangreiche Experimente auf drei Benchmarks mit zwei repräsentativen Modellen zeigen, dass DiffTester eine signifikante Beschleunigung liefert, während die Testabdeckung erhalten bleibt. Darüber hinaus generalisiert DiffTester gut über verschiedene dLLMs und Programmiersprachen hinweg und bietet eine praktische und skalierbare Lösung für eine effiziente UTG in der Softwareentwicklung. Code und Daten sind öffentlich unter https://github.com/wellbeingyang/DLM4UTG-open verfügbar.
Das Verständnis von Risiken im autonomen Fahren erfordert nicht nur Wahrnehmung und Vorhersage, sondern auch hochrangige Schlussfolgerungen über das Verhalten von Agenten und den Kontext. Aktuelle Methoden, die auf Vision-Language-Models (VLMs) basieren, verankern Agenten hauptsächlich in statischen Bildern und liefern qualitative Beurteilungen, wobei sie die räumlich-zeitliche Argumentation vermissen, die erforderlich ist, um zu erfassen, wie sich Risiken im Laufe der Zeit entwickeln. Um diese Lücke zu schließen, schlagen wir NuRisk vor, einen umfassenden Visual Question Answering (VQA)-Datensatz, der 2.900 Szenarien und 1,1 Millionen Agenten-basierte Proben umfasst und auf realen Daten von nuScenes und Waymo aufbaut, ergänzt durch sicherheitskritische Szenarien aus dem CommonRoad-Simulator. Der Datensatz bietet sequenzielle Bilder in der Vogelperspektive (Bird-Eye-View, BEV) mit quantitativen, Agenten-basierten Risikoannotationen, die räumlich-zeitliche Argumentation ermöglichen. Wir testen bekannte VLMs mit verschiedenen Prompting-Techniken und stellen fest, dass sie keine explizite räumlich-zeitliche Argumentation durchführen können, was zu einer maximalen Genauigkeit von 33 % bei hoher Latenz führt. Um diese Mängel zu beheben, verbessert unser feinabgestimmter 7B VLM-Agent die Genauigkeit auf 41 % und reduziert die Latenz um 75 %, wodurch explizite räumlich-zeitliche Argumentationsfähigkeiten demonstriert werden, die proprietären Modellen fehlten. Obwohl dies einen bedeutenden Fortschritt darstellt, unterstreicht die bescheidene Genauigkeit die tiefgreifende Herausforderung der Aufgabe und etabliert NuRisk als einen kritischen Benchmark für die Weiterentwicklung der räumlich-zeitlichen Argumentation im autonomen Fahren.
Die Bewertung der Einhaltung von Richtlinien ist eine grundlegende Aufgabe, bei der überprüft wird, ob ein Eingabefall strikt mit einer Reihe von menschendefinierten Regeln, allgemein bekannt als Richtlinien, übereinstimmt. In der Praxis folgen menschliche Experten einem systematischen, schrittweisen Prozess, um Verstöße gegen spezifische Bestimmungen, die in der Richtlinie festgelegt sind, zu identifizieren. Die Dokumentation solcher Goldstandard- und Expertenebene-Reasoning-Prozesse ist jedoch kostspielig zu erwerben. In diesem Artikel stellen wir Policy Reasoning Traces (PRT) vor, eine Form spezialisierter generierter Reasoning-Ketten, die als Reasoning-Brücke dienen, um die Fähigkeiten eines LLM zur Bewertung der Richtlinieneinhaltung zu verbessern. Unsere empirischen Auswertungen zeigen, dass die Verwendung von PRTs sowohl für Inferenz- als auch für Trainingsszenarien die Leistung von Open-Weight- und kommerziellen Modellen erheblich steigert und einen neuen State-of-the-Art für HIPAA- und GDPR-Richtlinien setzt. Neben Genauigkeitssteigerungen heben wir auch hervor, wie PRTs die Fähigkeit eines LLM verbessern können, Richtlinienklauseln präzise zu zitieren sowie Compliance-Entscheidungen durch ihre hohe Nutzung aus den rohen Gedankenketten zu beeinflussen.