papers.description
Multimodales Denken erfordert eine iterative Koordination zwischen Sprache und Vision, doch es bleibt unklar, was eine sinnvolle verzahnte Gedankenkette ausmacht. Wir postulieren, dass Text- und Bildgedanken als komplementäre, anstatt isomorphe, Modalitäten fungieren sollten, die sich gegenseitig im Denkprozess voranbringen. Angeleitet von diesem Prinzip entwickeln wir ThinkMorph, ein vereinheitlichtes Modell, das auf 24.000 hochwertigen, verzahnten Denkspuren feinabgestimmt wurde und Aufgaben mit unterschiedlichem visuellem Engagement umspannt. ThinkMorph lernt, progressive Text-Bild-Denk schritte zu generieren, die visuelle Inhalte konkret manipulieren und dabei eine kohärente verbale Logik beibehalten. Es erzielt große Verbesserungen auf visuell-zentrierten Benchmarks (im Durchschnitt 34,7 % gegenüber dem Basismodell) und verallgemeinert auf domainsfremde Aufgaben, wobei es größere und proprietäre VLMs erreicht oder übertrifft. Über die Leistung hinaus zeigt ThinkMorph emergente multimodale Intelligenz, einschließlich ungesehener visueller Manipulationsfähigkeiten, adaptivem Wechsel zwischen Denkmodi und besserer Skalierung zur Testzeit durch diversifizierte multimodale Gedanken. Diese Ergebnisse deuten auf vielversprechende Wege hin, die emergenten Fähigkeiten vereinheitlichter Modelle für multimodales Denken zu charakterisieren.
Moderne KI-Hardware, wie Nvidias Blackwell-Architektur, setzt zunehmend auf niedrigpräzise Gleitkommaformate (FP), um die weitverbreiteten Aktivierungs-Ausreißer in Large Language Models (LLMs) zu verarbeiten. Trotz dieses Branchentrends fehlte bisher ein einheitlicher Vergleich von FP- und Integer-Quantisierung (INT) über verschiedene Granularitäten hinweg, was Algorithmen- und Hardware-Co-Design ohne klare Leitlinie ließ. Diese Arbeit schließt diese Lücke durch eine systematische Untersuchung der Kompromisse zwischen FP- und INT-Formaten. Wir zeigen einen kritischen Leistungsübergang auf: Während FP bei grobkörniger Quantisierung überlegen ist, ist der Vergleich auf feinkörniger (blockweiser) Ebene nuancenreicher. Unser umfassender Vergleich demonstriert, dass für beliebte 8-Bit-Feinkörnformate (z.B. MX mit Blockgröße 32) MXINT8 seinem FP-Pendant sowohl in algorithmischer Genauigkeit als auch Hardware-Effizienz überlegen ist. Für 4-Bit-Formate hingegen besitzt FP (z.B. MXFP4, NVFP4) oft einen Genauigkeitsvorteil, obwohl wir zeigen, dass NVINT4 NVFP4 übertreffen kann, wenn Ausreißer-reduzierende Techniken wie Hadamard-Rotation angewendet werden. Wir führen zudem eine symmetrische Clipping-Methode ein, die Gradientenverzerrung beim feinkörnigen INT-Training mit niedriger Bitzahl behebt und nahezu verlustfreie Leistung für MXINT8-Training ermöglicht. Diese Ergebnisse stellen die aktuelle Hardware-Entwicklung in Frage, da sie zeigen, dass ein FP-Ansatz nach dem Gießkannenprinzip suboptimal ist, und plädieren dafür, dass feinkörnige INT-Formate, insbesondere MXINT8, eine bessere Balance aus Genauigkeit, Leistung und Effizienz für zukünftige KI-Beschleuniger bieten.
Die Effizienz großer Sprachmodelle (LLMs) wird grundlegend durch ihren sequenziellen, Token-für-Token-Generierungsprozess begrenzt. Wir argumentieren, dass die Überwindung dieses Engpasses eine neue Gestaltungsdimension für die Skalierung von LLMs erfordert: die Erhöhung der semantischen Bandbreite jedes Generierungsschritts. Zu diesem Zweck führen wir Kontinuierlich Autoregressive Sprachmodelle (CALM) ein, einen Paradigmenwechsel von der diskreten nächsten Token-Vorhersage zur kontinuierlichen nächsten Vektor-Vorhersage. CALM verwendet einen Autoencoder mit hoher Wiedergabetreue, um einen Block von K Token in einen einzigen kontinuierlichen Vektor zu komprimieren, aus dem die ursprünglichen Token mit über 99,9 % Genauigkeit rekonstruiert werden können. Dies ermöglicht es uns, Sprache als eine Sequenz kontinuierlicher Vektoren anstelle diskreter Token zu modellieren, was die Anzahl der Generierungsschritte um den Faktor K reduziert. Der Paradigmenwechsel erfordert ein neues Modellierungswerkzeug; daher entwickeln wir einen umfassenden Likelihood-freien Rahmen, der robustes Training, Evaluation und kontrollierbare Stichprobenentnahme im kontinuierlichen Bereich ermöglicht. Experimente zeigen, dass CALM die Leistungs-Rechenaufwand-Abwägung signifikant verbessert und die Leistung starker diskreter Baseline-Modelle bei deutlich geringeren Rechenkosten erreicht. Noch wichtiger ist, dass diese Ergebnisse die nächste Vektor-Vorhersage als einen leistungsstarken und skalierbaren Weg zu ultra-effizienten Sprachmodellen etablieren. Code: https://github.com/shaochenze/calm. Projekt: https://shaochenze.github.io/blog/2025/CALM.
Von Vision-Language Models (VLMs) gesteuerte, computerbasierte Agenten haben menschenähnliche Fähigkeiten bei der Bedienung digitaler Umgebungen wie Mobilplattformen demonstriert. Während diese Agenten großes Potenzial für die Weiterentwicklung digitaler Automatisierung bergen, wecken ihre Möglichkeiten für unsichere Operationen, wie Systemkompromittierung und Datenschutzverletzungen, erhebliche Bedenken. Die Erkennung dieser Sicherheitsprobleme im riesigen und komplexen Operationsraum mobiler Umgebungen stellt eine gewaltige Herausforderung dar, die bislang kritisch unerforscht bleibt. Um eine Grundlage für die Sicherheitsforschung mobiler Agenten zu schaffen, stellen wir MobileRisk-Live vor – eine dynamische Sandbox-Umgebung mit einem Sicherheitserkennungs-Benchmark, der realistische Trajektorien mit feingranularen Annotationen umfasst. Darauf aufbauend präsentieren wir OS-Sentinel, ein neuartiges hybrides Sicherheitserkennungsframework, das einen Formal Verifier zur Erkennung expliziter Systemverstöße synergetisch mit einem VLM-basierten Contextual Judge zur Bewertung kontextueller Risiken und Agentenaktionen kombiniert. Experimente zeigen, dass OS-Sentinel gegenüber bestehenden Ansätzen über mehrere Metriken hinweg Verbesserungen von 10–30 % erzielt. Eine vertiefte Analyse liefert kritische Erkenntnisse, die die Entwicklung sichererer und zuverlässigerer autonomer Mobilogenten fördern.
Vision-Language-Action (VLA)-Modelle ermöglichen es Robotern, komplexe Aufgaben aus multimodalen Eingaben zu verstehen und auszuführen. Obwohl aktuelle Forschungsarbeiten den Einsatz von Reinforcement Learning (RL) zur Automatisierung des aufwändigen Datensammlungsprozesses beim Skalieren von Supervised Fine-Tuning (SFT) untersuchen, bleibt die Anwendung von RL in großem Maßstab auf flussbasierte VLA-Modelle (z.B. π₀, π₀.₅) aufgrund nicht handhabbarer Aktions-Log-Likelihoods aus iterativer Entrauschung eine Herausforderung. Wir begegnen dieser Herausforderung mit π_RL, einem Open-Source-Framework für das Training flussbasierter VLA-Modelle in paralleler Simulation. π_RL implementiert zwei RL-Algorithmen: (1) *Flow-Noise* modelliert den Entrauschungsprozess als diskretes MDP mit einem erlernbaren Rausch-Netzwerk zur exakten Log-Likelihood-Berechnung. (2) *Flow-SDE* integriert Entrauschung mit der Agenten-Umgebungs-Interaktion, formuliert ein zweischichtiges MDP und nutzt ODE-zu-SDE-Konvertierung für effiziente RL-Exploration. Wir evaluieren π_RL anhand der LIBERO- und ManiSkill-Benchmarks. Auf LIBERO steigert π_RL die Few-Shot-SFT-Modelle π₀ und π₀.₅ von 57,6 % auf 97,6 % bzw. von 77,1 % auf 98,3 %. In ManiSkill trainieren wir π_RL in 320 parallelen Umgebungen und verbessern π₀ von 41,6 % auf 85,7 % und π₀.₅ von 40,0 % auf 84,8 % über 4352 Pick-and-Place-Aufgaben hinweg, was skalierbares Multitask-RL unter heterogener Simulation demonstriert. Insgesamt erzielt π_RL signifikante Leistungssteigerungen und eine stärkere Generalisierung gegenüber SFT-Modellen und validiert so die Wirksamkeit von Online-RL für flussbasierte VLA-Modelle.
Das Reinforcement Learning (RL)-Feintuning von großen Sprachmodellen (LLMs) leidet häufig unter Instabilität, die auf eine numerische Diskrepanz zwischen Trainings- und Inferenzpolitiken zurückzuführen ist. Während frühere Arbeiten versucht haben, dieses Problem durch algorithmische Korrekturen oder technische Anpassungen zu mildern, zeigen wir, dass die Ursache in der Gleitkommagenauigkeit selbst liegt. Das weit verbreitete BF16 führt trotz seines großen dynamischen Bereichs zu erheblichen Rundungsfehlern, die die Konsistenz zwischen Training und Inferenz zerstören. In dieser Arbeit demonstrieren wir, dass bereits die einfache Rückkehr zu FP16 diese Diskrepanz wirksam beseitigt. Die Änderung ist einfach, wird von modernen Frameworks vollständig unterstützt, erfordert nur wenige Codezeilen Änderung und keine Modifikation der Modellarchitektur oder des Lernalgorithmus. Unsere Ergebnisse legen nahe, dass die einheitliche Verwendung von FP16 eine stabilere Optimierung, schnellere Konvergenz und eine stärkere Leistung über verschiedene Aufgaben, Algorithmen und Frameworks hinweg bewirkt. Wir hoffen, dass diese Erkenntnisse eine breitere Neubewertung der Präzisionsabwägungen beim RL-Feintuning anregen.
Das räumliche Verständnis bleibt eine Schwachstelle großer visuell-sprachlicher Modelle (LVLMs). Bestehende Supervised-Fine-Tuning (SFT)- und neuere Reinforcement-Learning-with-Verifiable-Rewards (RLVR)-Pipelines sind von kostspieliger Supervision, spezialisierten Tools oder eingeschränkten Umgebungen abhängig, die die Skalierbarkeit begrenzen. Wir stellen Spatial-SSRL vor, ein selbstüberwachtes RL-Paradigma, das verifizierbare Signale direkt aus gewöhnlichen RGB- oder RGB-D-Bildern ableitet. Spatial-SSRL formuliert automatisch fünf Pretext-Aufgaben, die 2D- und 3D-Raumstrukturen erfassen: Neuanordnung verwürfelter Bildbereiche, Erkennung gespiegelter Bildbereiche, Inpainting ausgeschnittener Bildbereiche, Tiefenreihenfolge von Regionen und Vorhersage relativer 3D-Positionen. Diese Aufgaben liefern Ground-Truth-Antworten, die einfach zu verifizieren sind und keine menschliche oder LVLM-Annotation erfordern. Das Training mit unseren Aufgaben verbessert das räumliche Schlussfolgern erheblich, während die allgemeinen visuellen Fähigkeiten erhalten bleiben. Auf sieben Benchmarks für räumliches Verständnis in Bild- und Video-Szenarien erzielt Spatial-SSRL durchschnittliche Genauigkeitssteigerungen von 4,63 % (3B) und 3,89 % (7B) gegenüber den Qwen2.5-VL-Baselines. Unsere Ergebnisse zeigen, dass einfache, intrinsische Supervision RLVR in großem Maßstab ermöglicht und einen praktischen Weg zu stärkerer räumlicher Intelligenz in LVLMs bietet.
Distribution Matching Distillation (DMD) destilliert score-basierte generative Modelle in effiziente Ein-Schritt-Generatoren, ohne eine Eins-zu-eins-Entsprechung zu den Sampling-Trajektorien ihrer Lehrer zu erfordern. Allerdings führt eine begrenzte Modellkapazität dazu, dass Ein-Schritt-destillierte Modelle bei komplexen generativen Aufgaben unterperformen, z.B. bei der Synthese aufwändiger Objektbewegungen in der Text-zu-Video-Generierung. Eine direkte Erweiterung von DMD auf eine Mehrschritt-Destillation erhöht den Speicherverbrauch und die rechnerische Tiefe, was zu Instabilität und verringerter Effizienz führt. Während frühere Arbeiten stochastische Gradientenabschneidung als mögliche Lösung vorschlagen, beobachten wir, dass diese die Generierungsvielfalt von Mehrschritt-destillierten Modellen erheblich reduziert und auf das Niveau ihrer Ein-Schritt-Pendants senkt. Um diese Einschränkungen zu adressieren, schlagen wir Phased DMD vor, ein Mehrschritt-Destillationsframework, das die Idee der phasenweisen Destillation mit Mixture-of-Experts (MoE) verbindet, um die Lernschwierigkeit zu verringern und gleichzeitig die Modellkapazität zu erhöhen. Phased DMD basiert auf zwei Schlüsselideen: progressive Distribution Matching und Score Matching innerhalb von Teilintervallen. Erstens teilt unser Modell den SNR-Bereich in Teilintervalle auf und verfeinert das Modell progressiv zu höheren SNR-Niveaus, um komplexe Verteilungen besser zu erfassen. Um sicherzustellen, dass das Trainingsziel innerhalb jedes Teilintervalls genau ist, haben wir rigorose mathematische Ableitungen durchgeführt. Wir validieren Phased DMD durch die Destillation modernster Bild- und Videogenerierungsmodelle, einschließlich Qwen-Image (20B Parameter) und Wan2.2 (28B Parameter). Experimentelle Ergebnisse zeigen, dass Phased DMD die Ausgabevielfalt besser bewahrt als DMD, während wesentliche generative Fähigkeiten erhalten bleiben. Wir werden unseren Code und unsere Modelle veröffentlichen.
Multimodale Positionskodierung ist entscheidend für Vision-Language-Modelle, doch es gab bisher nur wenig systematische Untersuchungen dazu. Wir führen eine umfassende Analyse der multimodalen Rotary Positional Embedding (RoPE) durch, indem wir ihre beiden Kernkomponenten untersuchen: Positionsdesign und Frequenzzuweisung. Durch umfangreiche Experimente identifizieren wir drei zentrale Leitlinien: Positionskohärenz, vollständige Frequenznutzung und Bewahrung von Text-Priors – was eine eindeutige Layout-Darstellung, reichhaltige Repräsentation und treue Übertragung vom vortrainierten LLM gewährleistet. Aufbauend auf diesen Erkenntnissen schlagen wir Multi-Head RoPE (MHRoPE) und MRoPE-Interleave (MRoPE-I) vor, zwei einfache Plug-and-Play-Varianten, die keine Architekturänderungen erfordern. Unsere Methoden übertreffen bestehende Ansätze durchgängig in verschiedenen Benchmarks, mit signifikanten Verbesserungen sowohl im allgemeinen als auch im feinkörnigen multimodalen Verständnis. Code wird verfügbar sein unter https://github.com/JJJYmmm/Multimodal-RoPEs.
Autonome Agenten für grafische Benutzeroberflächen (GUI) sind auf eine präzise GUI-Verankerung angewiesen, bei der Sprachbefehle auf Bildschirmkoordinaten abgebildet werden, um Benutzeranweisungen auszuführen. Allerdings fehlt aktuellen Modellen, unabhängig davon, ob sie durch überwachtes Fein-Tuning (SFT) oder verstärkendes Fein-Tuning (RFT) trainiert wurden, ein Selbstbewusstsein für ihre Fähigkeitsgrenzen, was zu Überzeugtheit und unzuverlässigen Vorhersagen führt. Wir evaluieren zunächst systematisch probabilistisches und verbalisiertes Vertrauen in allgemeinen und GUI-spezifischen Modellen und zeigen eine Fehlausrichtung zwischen Vertrauen und tatsächlicher Genauigkeit auf, die besonders bei dynamischen GUI-Automatisierungsaufgaben kritisch ist, wo einzelne Fehler zum Aufgabenversagen führen können. Um dies zu adressieren, schlagen wir HyperClick vor, ein neuartiges Framework, das zuverlässige GUI-Verankerung durch Unsicherheitskalibrierung verbessert. HyperClick führt einen dualen Belohnungsmechanismus ein, der eine binäre Belohnung für korrekte Aktionen mit einer modellierten räumlichen Vertrauensbewertung auf Basis einer truncated Gaussian-Funktion kombiniert, kalibriert mittels des Brier-Scores. Dieser Ansatz optimiert gemeinsam Verankerungsgenauigkeit und Vertrauenszuverlässigkeit und fördert introspektive Selbstkritik. Umfangreiche Experimente auf sieben Herausforderungs-Benchmarks zeigen, dass HyperClick state-of-the-art Leistung erzielt und dabei gut kalibriertes Vertrauen bietet. Durch explizite Vertrauenskalibrierung und introspektive Selbstkritik reduziert HyperClick Überzeugtheit und unterstützt zuverlässigere GUI-Automatisierung.
Die Ausführlichkeit von Chain-of-Thought (CoT)-Argumentation behindert deren breiten Einsatz in effizienzkritischen Anwendungen. Kürzlich sind implizite CoT-Ansätze entstanden, die Argumentationsschritte innerhalb der versteckten Embeddings eines LLM kodieren (als „implizite Argumentation“ bezeichnet) und nicht in expliziten Tokens. Dieser Ansatz beschleunigt CoT, indem die Argumentationslänge reduziert und einige LLM-Komponenten umgangen werden. Allerdings sehen sich bestehende implizite CoT-Methoden zwei großen Herausforderungen gegenüber: (1) Sie bewahren keine semantische Übereinstimmung zwischen der impliziten Argumentation (wenn sie in natürliche Sprache transformiert wird) und der Ground-Truth-Argumentation, was zu einer erheblichen Verschlechterung der CoT-Leistung führt, und (2) Sie konzentrieren sich darauf, die Länge der impliziten Argumentation zu reduzieren; jedoch vernachlässigen sie die beträchtliche Zeit, die ein LLM für die Generierung eines einzelnen impliziten Argumentationstokens benötigt. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen, semantisch abgestimmten impliziten CoT-Rahmen namens SemCoT vor. Insbesondere für die erste Herausforderung entwerfen wir einen kontrastiv trainierten Sentence Transformer, der die semantische Übereinstimmung zwischen impliziter und expliziter Argumentation bewertet und zur Durchsetzung der semantischen Erhaltung während der Optimierung der impliziten Argumentation verwendet wird. Um die zweite Herausforderung anzugehen, führen wir einen effizienten Generator für implizite Argumentation ein, indem wir ein leichtgewichtiges Sprachmodell mittels Knowledge Distillation feinabstimmen. Dieser Generator wird von unserem Sentence Transformer geleitet, um die Ground-Truth-Argumentation in eine semantisch abgestimmte implizite Argumentation zu destillieren und dabei auch die Genauigkeit zu optimieren. SemCoT ist der erste Ansatz, der die CoT-Effizienz durch gemeinsame Optimierung der Token-Generierungsgeschwindigkeit und der Bewahrung der semantischen Übereinstimmung mit der Ground-Truth-Argumentation steigert. Umfangreiche Experimente demonstrieren die überlegene Leistung von SemCoT im Vergleich zu state-of-the-art Methoden sowohl in Bezug auf Effizienz als auch Wirksamkeit. Unser Code ist unter https://github.com/YinhanHe123/SemCoT/ verfügbar.
Die quadratischen Kosten der skalierten Dot-Produkt-Attention sind ein zentrales Hindernis für die Skalierung autoregressiver Sprachmodelle auf lange Kontexte. Lineare Attention und State Space Models (SSMs) bieten skalierbare Alternativen, sind jedoch typischerweise auf Approximationen erster Ordnung oder kernelbasierte Ansätze beschränkt, was die Ausdrucksfähigkeit einschränken kann. Wir führen Higher-order Linear Attention (HLA) ein, einen kausalen, Streaming-fähigen Mechanismus, der höhere Interaktionen durch kompakte Suffizienzstatistiken des Präfix realisiert. Im Fall zweiter Ordnung verwaltet HLA einen Zustand konstanter Größe und berechnet Ausgaben pro Token in linearer Zeit, ohne jemals n-mal-n-Matrizen explizit zu materialisieren. Wir liefern geschlossene Streaming-Identitäten, eine streng kausale Maskierungsvariante unter Verwendung zweier zusätzlicher Summaries und ein chunk-paralleles Trainingsschema basierend auf assoziativen Scans, das die Aktivierungen einer seriellen Rekurrenz exakt reproduziert. Wir skizzieren zudem Erweiterungen auf dritte und höhere Ordnungen. Zusammengenommen positionieren diese Ergebnisse HLA als einen prinzipienbasierten, skalierbaren Baustein, der attention-artiges, datenabhängiges Mischen mit der Effizienz moderner rekurrenter Architekturen kombiniert. Projektseite: https://github.com/yifanzhang-pro/HLA.
Multimodale große Sprachmodelle (MLLMs) haben verkörperte Agenten vorangebracht, indem sie direkte Wahrnehmung, logisches Schlussfolgern und die Planung aufgabenorientierter Aktionen aus visuellen Eingaben ermöglichen. Solche visuell gesteuerten, verkörperten Agenten eröffnen jedoch eine neue Angriffsfläche: visuelle Backdoor-Angriffe, bei denen sich der Agent normal verhält, bis ein visueller Trigger in der Szene erscheint, und dann persistente eine vom Angreifer vorgegebene Mehrschritt-Strategie ausführt. Wir stellen BEAT vor, den ersten Rahmen zum Injizieren solcher visueller Backdoors in MLLM-basierte verkörperte Agenten unter Verwendung von Objekten in der Umgebung als Trigger. Im Gegensatz zu textuellen Triggern weisen Objekttrigger große Variationen über Blickwinkel und Beleuchtung hinweg auf, was ihre zuverlässige Implantierung erschwert. BEAT adressiert diese Herausforderung durch (1) die Erstellung eines Trainingsdatensatzes, der verschiedene Szenen, Aufgaben und Triggerplatzierungen abdeckt, um Agenten der Trigger-Variabilität auszusetzen, und (2) die Einführung eines zweistufigen Trainingsschemas, das zunächst Supervised Fine-Tuning (SFT) anwendet und dann unser neuartiges Contrastive Trigger Learning (CTL). CTL formuliert Trigger-Diskriminierung als Preference-Learning zwischen Trigger-positiven und Trigger-freien Eingaben, schärft explizit die Entscheidungsgrenzen und gewährleistet so eine präzise Backdoor-Aktivierung. In verschiedenen Benchmarks für verkörperte Agenten und mit verschiedenen MLLMs erreicht BEAT Angriffserfolgsraten von bis zu 80 %, bei gleichzeitig starker Leistung in benignen Aufgaben, und generalisiert zuverlässig auf Out-of-Distribution-Triggerplatzierungen. Bemerkenswerterweise steigert CTL im Vergleich zu naivem SFT die Backdoor-Aktivierungsgenauigkeit bei begrenzten Backdoor-Daten um bis zu 39 %. Diese Ergebnisse decken ein kritisches, bislang unerforschtes Sicherheitsrisiko in MLLM-basierten verkörperten Agenten auf und unterstreichen die Notwendigkeit robuster Verteidigungsmaßnahmen vor einem realen Einsatz.
Da LLMs eine zunehmend wichtige gesellschaftliche Rolle einnehmen, werden sie zunehmend mit Fragen konfrontiert, die nicht nur Allgemeinwissen erfordern, sondern auch die Übereinstimmung mit bestimmten menschlichen Wertesystemen verlangen. Daher hat sich die Untersuchung der Abstimmung von LLMs mit menschlichen Werten zu einem zentralen Forschungsgebiet entwickelt. Bisherige Arbeiten konzentrieren sich jedoch meist auf die Bewertung der Ausrichtung vollständig trainierter Modelle und vernachlässigen die Trainingsdynamik, durch die Modelle lernen, menschliche Werte auszudrücken. In dieser Arbeit untersuchen wir, wie und in welcher Phase die Wertabstimmung während des Post-Trainings eines Modells entsteht. Unsere Analyse unterscheidet die Effekte von Post-Training-Algorithmen und Datensätzen und misst sowohl das Ausmaß als auch den Zeitpunkt von Wertverschiebungen während des Trainings. In Experimenten mit Llama-3- und Qwen-3-Modellen verschiedener Größen sowie gängigen Datensätzen und Algorithmen für Supervised Fine-Tuning (SFT) und Preference Optimization stellen wir fest, dass die SFT-Phase generell die Werte eines Modells festlegt und nachfolgende Preference Optimization diese Werte selten neu ausrichtet. Darüber hinaus zeigen wir unter Verwendung eines synthetischen Präferenzdatensatzes, der eine kontrollierte Manipulation von Werten ermöglicht, dass verschiedene Preference-Optimization-Algorithmen zu unterschiedlichen Ergebnissen in der Wertabstimmung führen, selbst wenn die Präferenzdaten konstant gehalten werden. Unsere Erkenntnisse liefern umsetzbare Einsichten darüber, wie Werte während des Post-Trainings gelernt werden, und tragen dazu bei, die Datenkuratierung sowie die Auswahl von Modellen und Algorithmen für die Preference Optimization zu informieren, um die Abstimmung der Modelle an menschliche Werte zu verbessern.
Kürzlich hat die Erweiterung von Vision-Language-Action-Modellen (VLAs) um Weltmodelle vielversprechende Fortschritte beim Erlernen robotischer Politiken gezeigt. Es bleibt jedoch eine Herausforderung, Beobachtungen des nächsten Zustands und Aktionssequenzen gemeinsam vorherzusagen, bedingt durch den inhärenten Unterschied zwischen den beiden Modalitäten. Um dies zu adressieren, schlagen wir DUal-STream Diffusion (DUST) vor, einen weltmodell-erweiterten VLA-Rahmen, der den Modalitätenkonflikt bewältigt und die Leistung von VLAs in verschiedenen Aufgaben verbessert. Konkret schlagen wir eine multimodale Diffusions-Transformer-Architektur vor, die explizit separate Modalitätsströme beibehält, gleichzeitig aber wissensübergreifenden Austausch ermöglicht. Zusätzlich führen wir unabhängige Rauschstörungen für jede Modalität sowie einen entkoppelten Flow-Matching-Loss ein. Dieser Entwurf ermöglicht es dem Modell, die gemeinsame Verteilung bidirektional zu erlernen, ohne einen einheitlichen latenten Raum zu benötigen. Basierend auf der Entkopplung der Modalitäten während des Trainings führen wir auch eine gemeinsame Sampling-Methode ein, die Skalierung zur Testzeit unterstützt, bei der Aktions- und Vision-Tokens asynchron mit unterschiedlichen Raten evolvieren. In Experimenten mit simulierten Benchmarks wie RoboCasa und GR-1 erzielt DUST bis zu 6 % höhere Werte gegenüber Baseline-Methoden, während unser Skalierungsansatz zur Testzeit eine zusätzliche Steigerung von 2–5 % liefert. Bei realen Aufgaben mit dem Franka Research 3 verbessert DUST die Erfolgsraten um 13 %, was seine Wirksamkeit über Simulationen hinaus bestätigt. Darüber hinaus erzielt Vortraining an aktionsfreien Videos von BridgeV2 signifikante Transfergewinne auf RoboCasa, was das Potenzial von DUST für großskaliges VLA-Vortraining unterstreicht.
Wir stellen Denario vor, ein KI-Multi-Agenten-System, das als wissenschaftlicher Forschungsassistent konzipiert ist. Denario kann eine Vielzahl verschiedener Aufgaben ausführen, wie z.B. das Generieren von Ideen, die Literaturrecherche, die Erstellung von Forschungsplänen, das Schreiben und Ausführen von Code, das Erstellen von Diagrammen sowie das Verfassen und Begutachten wissenschaftlicher Arbeiten. Das System verfügt über eine modulare Architektur, die es ermöglicht, spezifische Aufgaben zu bearbeiten, etwa die Ideengenerierung, oder end-to-end wissenschaftliche Analysen unter Verwendung von Cmbagent als Deep-Research-Backend durchzuführen. In dieser Arbeit beschreiben wir Denario und seine Module im Detail und veranschaulichen seine Fähigkeiten anhand mehrerer KI-generierter Artikel, die von ihm in zahlreichen wissenschaftlichen Disziplinen erstellt wurden, darunter Astrophysik, Biologie, Biophysik, Biomedizinische Informatik, Chemie, Materialwissenschaften, Mathematische Physik, Medizin, Neurowissenschaften und Planetenwissenschaften. Denario zeichnet sich zudem durch die Kombination von Ideen aus verschiedenen Disziplinen aus, was wir anhand eines Artikels demonstrieren, der Methoden aus der Quantenphysik und dem maschinellen Lernen auf astrophysikalische Daten anwendet. Wir berichten über die von Fachexperten durchgeführten Evaluierungen dieser Artikel, die sowohl numerische Bewertungen als auch gutachterliche Rückmeldungen lieferten. Anschließend heben wir die Stärken, Schwächen und Grenzen des derzeitigen Systems hervor. Abschließend diskutieren wir die ethischen Implikationen KI-gestützter Forschung und reflektieren, wie solche Technologien mit der Wissenschaftsphilosophie zusammenhängen. Wir veröffentlichen den Code öffentlich unter https://github.com/AstroPilot-AI/Denario. Eine Denario-Demo kann auch direkt im Web unter https://huggingface.co/spaces/astropilot-ai/Denario ausgeführt werden, und die vollständige Anwendung wird in der Cloud bereitgestellt.
Mathematisches Denken ist eine zentrale Herausforderung für große Sprachmodelle (LLMs), die nicht nur korrekte Antworten, sondern auch nachvollziehbare Denkprozesse erfordert. Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat sich als vielversprechender Ansatz zur Verbesserung dieser Fähigkeiten erwiesen; jedoch bleibt seine Fähigkeit, echtes logisches Denken zu fördern, unklar. Wir untersuchen RLVR anhand zweier kombinatorischer Probleme mit vollständig verifizierbaren Lösungen: Aktivitätsplanung und der längsten aufsteigenden Teilfolge, unter Verwendung sorgfältig kuratierter Datensätze mit eindeutigen Optima. Über mehrere Belohnungsdesigns hinweg stellen wir fest, dass RLVR die Evaluationsmetriken verbessert, jedoch häufig durch die Verstärkung oberflächlicher Heuristiken und nicht durch den Erwerb neuer Denkstrategien. Diese Ergebnisse unterstreichen die Grenzen der RLVR-Generalisierung und betonen die Bedeutung von Benchmarks, die echtes mathematisches Denken von der Ausnutzung von Abkürzungen entkoppeln und verlässliche Maßstäbe für Fortschritte liefern. Code verfügbar unter https://github.com/xashru/rlvr-seq-generalization.
Vision-Language-Action-Modelle (VLAs) stellen eine bedeutende Grenzfläche der verkörperten Intelligenz dar, die darauf abzielt, digitales Wissen mit physischer Weltinteraktion zu verbinden. Obwohl diese Modelle bemerkenswerte generalistische Fähigkeiten demonstriert haben, wird ihr Einsatz erheblich durch die beträchtlichen Rechen- und Datenanforderungen behindert, die ihren zugrundeliegenden großskaligen Fundamentmodellen inhärent sind. Angespornt durch die dringende Notwendigkeit, diese Herausforderungen anzugehen, präsentiert dieser Übersichtsartikel die erste umfassende Betrachtung effizienter Vision-Language-Action-Modelle (Efficient VLAs) über den gesamten Daten-Modell-Trainings-Prozess hinweg. Konkret führen wir eine einheitliche Taxonomie ein, um die unterschiedlichen Bemühungen auf diesem Gebiet systematisch zu ordnen, und kategorisieren aktuelle Techniken in drei Kernpfeiler: (1) Effizientes Modelldesign, das sich auf effiziente Architekturen und Modellkompression konzentriert; (2) Effizientes Training, das den Rechenaufwand während des Modelllernens reduziert; und (3) Effiziente Datensammlung, die Engpässe bei der Erfassung und Nutzung robotischer Daten adressiert. Durch eine kritische Würdigung modernster Methoden innerhalb dieses Rahmens etabliert dieser Übersichtsartikel nicht nur eine grundlegende Referenz für die Community, sondern fasst auch repräsentative Anwendungen zusammen, skizziert zentrale Herausforderungen und zeichnet eine Roadmap für zukünftige Forschung. Wir pflegen eine kontinuierlich aktualisierte Projektseite, um unsere neuesten Entwicklungen zu verfolgen: https://evla-survey.github.io/
Große Sprachmodelle (LLMs) verändern das Paradigma von Empfehlungssystemen grundlegend, indem sie es Nutzern ermöglichen, ihre Präferenzen in Konversationen auszudrücken und Empfehlungen zu erhalten. Dennoch stellt die Anpassung von LLMs an die Empfehlungsaufgabe eine Herausforderung dar: vortrainierte LLMs generieren häufig Artikel, die nicht im Katalog vorhanden sind, verletzen erforderliche Ausgabeformate, und ihre Ranking-Qualität verschlechtert sich gegen Ende der generierten Liste rapide. Zu diesem Zweck schlagen wir ConvRec-R1 vor, ein Zwei-Stufen-Framework für das End-to-End-Training von konversationellen Empfehlungssystemen auf LLM-Basis. In Stufe 1 erstellen wir einen Behavioral-Cloning-Datensatz mit einer Remap-Reflect-Adjust-Pipeline, die hochwertige, kataloggestützte Demonstrationen von leistungsstarken Blackbox-LLMs erzeugt, um das RL-Training zu initialisieren. In Stufe 2 schlagen wir Rank-GRPO vor, eine principled Erweiterung des Group Relative Policy Optimization (GRPO), das für Aufgaben mit ranking-artigen Ausgaben maßgeschneidert ist. Rank-GRPO behandelt jeden Rang in der Empfehlungsliste als Einheit anstelle von Tokens (zu feinkörnig) oder Sequenzen (zu grob), definiert Belohnungen neu, um nicht-kausale Kreditzuweisung zu entfernen, und führt ein rangbasiertes Importance Ratio auf Basis des geometrischen Mittels der tokenweisen Wahrscheinlichkeiten pro Rang ein, um Policy-Updates zu stabilisieren. Experimente auf dem öffentlichen Reddit-v2-Datensatz zeigen, dass ConvRec-R1 schneller konvergiert und höhere Recall- und NDCG-Werte erreicht als GRPO-basierte Baseline-Methoden. Code und Datensätze sind unter https://github.com/yaochenzhu/Rank-GRPO verfügbar.
Text-to-Image (T2I)-Modelle werden zunehmend zur Erzeugung synthetischer Datensätze eingesetzt, doch die Generierung effektiver synthetischer Trainingsdaten für Klassifikationsaufgaben bleibt eine Herausforderung. Das Feinabstimmen (Fine-Tuning) eines T2I-Modells mit wenigen realen Beispielen kann die Qualität der synthetischen Trainingsdaten verbessern; dies kann jedoch auch zu Overfitting führen und die Vielfalt der generierten Stichproben verringern. Wir schlagen eine Feinabstimmungsstrategie namens BOB (BeyondOBjects) vor, um diese Probleme bei der Feinabstimmungsklassifikation (Fine-Grained Classification) zu mildern. Ausgehend von einer kleinen Menge realer Beispiele extrahieren wir zunächst klassenagnostische Attribute wie den Szenenhintergrund und die Objektpose. Anschließend berücksichtigen wir diese Attribute explizit während des Feinabstimmens des T2I-Modells und marginalisieren sie während der Generierung wieder aus. Dieser Ansatz reduziert Overfitting, bewahrt die generative A-priori-Verteilung des T2I-Modells, verringert Schätzfehler und minimiert unbeabsichtigte Interklassen-Assoziationen weiter. Umfangreiche Experimente mit mehreren T2I-Modellen, Backbones und Datensätzen zeigen, dass unsere Methode bei Verstärkung mit synthetischen Daten state-of-the-art Leistung in der Few-Shot Feinabstimmungsklassifikation erreicht. Konkret übertrifft BOB DataDream um 7,4 % auf dem Aircraft-Datensatz (von 50,0 % auf 57,4 %, wenn ein CLIP-Klassifikator mit fünf realen Bildern, verstärkt durch 100 synthetische Bilder, feinabgestimmt wird). In drei von vier Benchmarks erzielt das Feinabstimmen von Downstream-Modellen mit 5 realen Bildern, die mit BOB verstärkt wurden, eine bessere Leistung als das Feinabstimmen mit 10 realen Bildern. Insgesamt übertrifft BOB den bisherigen Stand der Technik in 18 von 24 experimentellen Settings, mit Genauigkeitsverbesserungen von über 2 % in 14 dieser Settings.
Eine präzise Instanzsegmentierung von Gebäuden und deren Höhenklassifizierung sind entscheidend für die Stadtplanung, 3D-Stadtmodellierung und die Infrastrukturüberwachung. Dieses Papier stellt eine detaillierte Analyse von YOLOv11 vor, dem jüngsten Fortschritt in der YOLO-Reihe von Deep-Learning-Modellen, mit Fokus auf dessen Anwendung zur kombinierten Gebäudeextraktion und diskreten Höhenklassifizierung aus Satellitenbildern. YOLOv11 baut auf den Stärken früherer YOLO-Modelle auf, indem es eine effizientere Architektur einführt, die Merkmale auf verschiedenen Skalen besser kombiniert, die Objektlokalisierungsgenauigkeit verbessert und die Leistung in komplexen städtischen Szenen steigert. Unter Verwendung des DFC2023 Track 2-Datensatzes – welcher über 125.000 annotierte Gebäude aus 12 Städten umfasst – bewerten wir die Leistung von YOLOv11 anhand von Metriken wie Precision, Recall, F1-Score und mean Average Precision (mAP). Unsere Ergebnisse zeigen, dass YOLOv11 eine hohe Leistung bei der Instanzsegmentierung mit 60,4 % mAP@50 und 38,3 % mAP@50–95 erzielt und gleichzeitig eine robuste Klassifizierungsgenauigkeit über fünf vordefinierte Höhenklassen beibehält. Das Modell zeichnet sich besonders im Umgang mit Verdeckungen, komplexen Gebäudeformen und Klassenungleichgewichten aus, insbesondere bei seltenen Hochhausstrukturen. Eine vergleichende Analyse bestätigt, dass YOLOv11 frühere Multitask-Frameworks sowohl in der Detektionsgenauigkeit als auch in der Inferenzgeschwindigkeit übertrifft, was es für Echtzeit- und großflächige städtische Kartierungen geeignet macht. Diese Forschung unterstreicht das Potenzial von YOLOv11, die semantische Stadtrekonstruktion durch vereinfachte kategorielle Höhenmodellierung voranzutreiben, und bietet umsetzbare Erkenntnisse für zukünftige Entwicklungen in der Fernerkundung und geospatialen Intelligenz.
Gesundheitsbezogene Fehlinformationen sind weit verbreitet und potenziell schädlich. Ihre Identifizierung ist schwierig, insbesondere wenn Behauptungen wissenschaftliche Erkenntnisse verzerren oder fehlinterpretieren. Wir untersuchen die Auswirkungen von synthetischer Datengenerierung und leichtgewichtigen Fine-Tuning-Techniken auf die Fähigkeit von Large Language Models (LLMs), fehlerhafte Argumente zu erkennen, unter Verwendung des MISSCI-Datensatzes und -Frameworks. In dieser Arbeit schlagen wir MisSynth vor, eine Pipeline, die Retrieval-Augmented Generation (RAG) anwendet, um synthetische Trugschluss-Beispiele zu erzeugen, die dann zum Fine-Tuning eines LLM-Modells verwendet werden. Unsere Ergebnisse zeigen substantiale Genauigkeitssteigerungen bei den fine-getunten Modellen im Vergleich zu Standard-Baselines. So erzielte das feinabgestimmte LLaMA 3.1 8B Modell beispielsweise eine absolute Verbesserung des F1-Scores von über 35 % auf dem MISSCI-Testsplit gegenüber seiner Standard-Baseline. Wir zeigen, dass die Einführung synthetischer Trugschluss-Daten zur Erweiterung begrenzter annotierter Ressourcen die Zero-Shot-Klassifikationsleistung von LLMs bei realen Aufgaben zur wissenschaftlichen Fehlinformation signifikant verbessern kann, selbst mit begrenzten Rechenressourcen. Der Code und der synthetische Datensatz sind verfügbar unter https://github.com/mxpoliakov/MisSynth.
Kartenspiele werden häufig zur Erforschung sequenzieller Entscheidungsfindung unter Unsicherheit eingesetzt, mit realweltlichen Analogien in Verhandlungen, Finanzen und Cybersicherheit. Diese Spiele lassen sich typischerweise anhand des Kontrollflusses in drei Kategorien einteilen: streng sequenziell (Spieler führen abwechselnd einzelne Aktionen aus), deterministische Antwortbestimmung (bestimmte Aktionen lösen ein festgelegtes Ergebnis aus) und unbegrenzte wechselseitige Antwortbestimmung (abwechselnde Gegenspielzüge sind erlaubt). Eine weniger erforschte, aber strategisch reichhaltige Struktur ist die begrenzte einseitige Antwortbestimmung, bei der die Aktion eines Spielers die Kontrolle kurzzeitig auf den Gegner überträgt. Dieser muss dann eine festgelegte Bedingung durch einen oder mehrere Züge erfüllen, bevor der Zug abgeschlossen wird. Wir bezeichnen Spiele, die diesen Mechanismus enthalten, als Bounded One-Sided Response Games (BORGs). Wir stellen eine modifizierte Version von Monopoly Deal als Benchmark-Umgebung vor, die diese Dynamik isoliert: Dabei zwingt eine Miet-Aktion den Gegner, Zahlungsvermögen auszuwählen. Der Goldstandard-Algorithmus, Counterfactual Regret Minimization (CFR), konvergiert ohne neue algorithmische Erweiterungen auf effektive Strategien. Eine schlanke Full-Stack-Forschungsplattform vereint die Umgebung, eine parallelisierte CFR-Laufzeitumgebung und eine für Menschen spielbare Weboberfläche. Der trainierte CFR-Agent und der Quellcode sind unter https://monopolydeal.ai verfügbar.