Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entstehung von Multi-Agenten-Systemen auf Basis großer Sprachmodelle (LLMs) bietet ein vielversprechendes Paradigma für skalierbare kollektive Intelligenz und Selbstevolution. Im Idealfall würden solche Systeme kontinuierliche Selbstverbesserung in einem vollständig geschlossenen Kreislauf erreichen und dabei eine robuste Sicherheitsausrichtung (Safety Alignment) beibehalten – eine Kombination, die wir als Selbstevolutions-Trilemma bezeichnen. Wir zeigen jedoch sowohl theoretisch als auch empirisch, dass eine Agentengesellschaft, die kontinuierliche Selbstevolution, vollständige Isolation und Sicherheitsinvarianz erfüllt, unmöglich ist. Gestützt auf einen informationstheoretischen Rahmen formalisieren wir Sicherheit als Grad der Abweichung von anthropischen Wertverteilungen. Wir beweisen theoretisch, dass isolierte Selbstevolution statistische Blindstellen erzeugt, die zu einem irreversiblen Abbau der Sicherheitsausrichtung des Systems führen. Empirische und qualitative Ergebnisse aus einer offenen Agentengemeinschaft (Moltbook) sowie zwei geschlossenen, sich selbst entwickelnden Systemen zeigen Phänomene, die mit unserer theoretischen Vorhersage eines unvermeidlichen Sicherheitsverfalls übereinstimmen. Wir schlagen außerdem mehrere Lösungsansätze vor, um das identifizierte Sicherheitsproblem abzumildern. Unsere Arbeit legt eine fundamentale Grenze für sich selbst entwickelnde KI-Gesellschaften fest und verlagert den Diskurs von symptomorientierten Sicherheitskorrekturen hin zu einem prinzipienbasierten Verständnis intrinsischer dynamischer Risiken. Dies unterstreicht die Notwendigkeit externer Aufsicht oder neuartiger sicherheitserhaltender Mechanismen.
Großmaßstäblich verifizierbare Prompts bilden die Grundlage für den Erfolg von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), doch sie enthalten viele nicht-informative Beispiele und sind kostspielig weiter auszubauen. Jüngste Studien konzentrieren sich darauf, begrenzte Trainingsdaten besser auszunutzen, indem sie schwierige Prompts priorisieren, deren Rollout-Erfolgsquote bei 0 liegt. Allerdings werden einfache Prompts mit einer Erfolgsquote von 1 im Trainingsverlauf ebenfalls zunehmend häufiger, was die effektive Datengröße verringert. Um dies abzumildern, schlagen wir Composition-RL vor, einen einfachen, aber nützlichen Ansatz zur besseren Nutzung begrenzter verifizierbarer Prompts, die auf Prompts mit Erfolgsquote 1 abzielen. Konkret komponiert Composition-RL automatisch mehrere Probleme zu einer neuen verifizierbaren Frage und nutzt diese kompositionellen Prompts für das RL-Training. Umfangreiche Experimente über Modellgrößen von 4B bis 30B zeigen, dass Composition-RL die Reasoning-Fähigkeit im Vergleich zu RL, das auf dem ursprünglichen Datensatz trainiert wurde, konsistent verbessert. Die Leistung kann weiter gesteigert werden durch eine Curriculum-Variante von Composition-RL, die die kompositionelle Tiefe während des Trainings schrittweise erhöht. Zusätzlich ermöglicht Composition-RL ein effektiveres domänenübergreifendes RL, indem Prompts aus verschiedenen Domänen kombiniert werden. Codes, Datensätze und Modelle sind verfügbar unter https://github.com/XinXU-USTC/Composition-RL.
Aktuelle vereinheitlichte multimodale Modelle für Bildgenerierung und -bearbeitung basieren typischerweise auf massiven Parameterskalen (z.B. >10 Mrd.), was prohibitive Trainingskosten und Bereitstellungsaufwand mit sich bringt. In dieser Arbeit stellen wir DeepGen 1.0 vor, ein schlankes 5-Milliarden-Parameter-Modell, das dennoch umfassende Fähigkeiten erreicht, die mit deutlich größeren Modellen konkurrieren oder diese übertreffen. Um die Limitierungen kompakter Modelle im semantischen Verständnis und der feinkörnigen Steuerung zu überwinden, führen wir Stacked Channel Bridging (SCB) ein, ein Deep-Alignment-Framework, das hierarchische Merkmale aus mehreren VLM-Schichten extrahiert und diese über lernbare 'Think Tokens' fusioniert, um dem generativen Backbone strukturierte, reasoning-reiche Steuerung zu bieten. Weiterhin entwerfen wir eine datenzentrierte Trainingsstrategie über drei progressive Stufen: (1) Alignment-Vortraining an großskaligen Bild-Text-Paaren und Bearbeitungs-Triplets zur Synchronisation von VLM- und DiT-Repräsentationen, (2) Gemeinsames überwachtes Feintuning an einer hochwertigen Mischung aus Generierungs-, Bearbeitungs- und Reasoning-Aufgaben zur Entwicklung von Omni-Fähigkeiten und (3) Verstärkendes Lernen mit MR-GRPO, das eine Mischung aus Belohnungsfunktionen und Überwachungssignalen nutzt, um substanzielle Verbesserungen in Generierungsqualität und menschlicher Präferenzausrichtung bei stabilen Trainingsfortschritt und Vermeidung visueller Artefakte zu erzielen. Obwohl DeepGen 1.0 mit nur ~50M Stichproben trainiert wurde, erzielt es Spitzenleistungen in diversen Benchmarks, übertrifft das 80-Milliarden-Parameter-Modell HunyuanImage um 28 % auf WISE und das 27-Milliarden-Parameter-Modell Qwen-Image-Edit um 37 % auf UniREditBench. Durch die Open-Source-Bereitstellung unseres Trainingscodes, der Gewichte und Datensätze bieten wir eine effiziente, leistungsstarke Alternative zur Demokratisierung vereinheitlichter multimodaler Forschung.
Vision-Language-Action (VLA)-Modelle, die direkt mehrstufige Aktionsabfolgen aus aktuellen Beobachtungen vorhersagen, stoßen aufgrund eingeschränkter Szenenverständnis- und schwacher Zukunftsantizipationsfähigkeiten auf inhärente Grenzen. Im Gegensatz dazu zeigen Video-World-Models, die mit webumspannenden Videokorpora vortrainiert wurden, robustes raumzeitliches Reasoning und präzise Zukunftsprognosen, was sie zu einer natürlichen Grundlage für die Verbesserung des VLA-Lernens macht. Daher schlagen wir GigaBrain-0.5M* vor, ein VLA-Modell, das durch World-Model-basiertes Reinforcement Learning trainiert wurde. Aufbauend auf GigaBrain-0.5, das mit über 10.000 Stunden Robotermanipulationsdaten vortrainiert wurde und dessen Zwischenversion derzeit den ersten Platz im internationalen RoboChallenge-Benchmark belegt, integriert GigaBrain-0.5M* weiterhin World-Model-basiertes Reinforcement Learning mittels RAMP (Reinforcement leArning via world Model-conditioned Policy), um eine robuste übertaskübergreifende Adaption zu ermöglichen. Empirische Ergebnisse zeigen, dass RAMP erhebliche Leistungssteigerungen gegenüber der RECAP-Baseline erzielt und Verbesserungen von etwa 30 % bei anspruchsvollen Aufgaben wie Wäschefalten, Kartonverpacken und Espressozubereitung erreicht. Entscheidend ist, dass GigaBrain-0.5M* zuverlässige Langzeitexekution zeigt und komplexe Manipulationsaufgaben konsistent ohne Fehlschlag bewältigt, wie durch Einsatzvideos in der realen Welt auf unserer {Projektseite https://gigabrain05m.github.io} validiert wurde.
On-Policy Distillation (OPD), bei der der Student mit der Logit-Verteilung des Teachers auf vom Studenten generierten Trajektorien abgeglichen wird, hat in der Praxis deutliche Verbesserungen der Studentenleistung gezeigt und übertrifft oft Off-Policy Distillation sowie Reinforcement-Learning(RL)-Paradigmen. In dieser Arbeit zeigen wir zunächst theoretisch, dass OPD ein Spezialfall von dichtem, KL-regularisiertem RL ist, bei dem Belohnungsfunktion und KL-Regularisierung stets gleich gewichtet werden und das Referenzmodell ein beliebiges Modell sein kann. Anschließend schlagen wir den Generalized On-Policy Distillation (G-OPD) Rahmen vor, der das Standard-OPD-Ziel erweitert, indem ein flexibles Referenzmodell und ein Skalierungsfaktor für die Belohnung eingeführt werden, der das relative Gewicht des Belohnungsterms gegenüber der KL-Regularisierung steuert. Durch umfangreiche Experimente zu mathematischem Reasoning und Code-Generierung leiten wir zwei neue Erkenntnisse ab: (1) Die Wahl eines Skalierungsfaktors größer 1 (sog. Belohnungsextrapolation), die wir als ExOPD bezeichnen, führt durchweg zu besseren Ergebnissen als Standard-OPD über verschiedene Teacher-Student-Größenverhältnisse hinweg. Insbesondere wenn das Wissen verschiedener Domain-Experten, gewonnen durch domänenspezifisches RL auf demselben Studentenmodell, zurück in den ursprünglichen Studenten integriert wird, ermöglicht ExOPD dem Studenten sogar, die Leistungsgrenze des Teachers zu übertreffen und die Domain-Teachers zu übertreffen. (2) Aufbauend auf ExOPD stellen wir weiter fest, dass im Strong-to-Weak-Distillation-Setting (d.h. bei der Destillation eines kleineren Studenten von einem größeren Teacher) eine Belohnungskorrektur durch Wahl des Referenzmodells als Basis-Modell des Teachers vor dem RL-Training ein genaueres Belohnungssignal liefert und die Destillationsleistung weiter verbessert. Diese Wahl setzt jedoch Zugang zur Pre-RL-Variante des Teachers voraus und verursacht höheren Rechenaufwand. Wir hoffen, dass unsere Arbeit neue Impulse für die zukünftige OPD-Forschung liefert.
Diskrete Audio-Tokenizer sind grundlegend, um große Sprachmodelle mit nativen Audioverarbeitungs- und -generierungsfähigkeiten auszustatten. Trotz jüngster Fortschritte stützen sich bestehende Ansätze oft auf vortrainierte Encoder, semantische Distillation oder heterogene CNN-basierte Architekturen. Diese Entwürfe führen feste induktive Verzerrungen ein, die die Rekonstruktionstreue begrenzen und effektives Skalieren behindern. In diesem Beitrag argumentieren wir, dass die diskrete Audio-Tokenisierung vollständig end-to-end mit einer homogenen und skalierbaren Architektur erlernt werden sollte. Zu diesem Zweck schlagen wir zunächst CAT (Causal Audio Tokenizer with Transformer) vor, eine rein Transformer-basierte Architektur, die Encoder, Quantisierer und Decoder gemeinsam ab initio für hochtreue Rekonstruktion optimiert. Aufbauend auf der CAT-Architektur entwickeln wir MOSS-Audio-Tokenizer, einen großskaligen Audio-Tokenizer mit 1,6 Milliarden Parametern, der auf 3 Millionen Stunden vielfältiger, allgemeiner Audiodaten vortrainiert wurde. Wir zeigen, dass dieser einfache, vollständig end-to-end Ansatz, der aus homogenen, kausalen Transformer-Blöcken aufgebaut ist, elegant skaliert und hochwertige Rekonstruktionen über diverse Audiobereiche hinweg unterstützt. Bei Sprache, Geräuschen und Musik übertrifft MOSS-Audio-Tokenizer durchgängig frühere Codecs über einen weiten Bereich von Bitraten und zeigt dabei vorhersehbare Verbesserungen mit zunehmender Skalierung. Bemerkenswerterweise entwickeln wir unter Nutzung der diskreten Token unseres Modells das erste rein autoregressive TTS-Modell, das frühere nicht-autoregressive und kaskadierte Systeme übertrifft. Darüber hinaus ermöglicht MOSS-Audio-Tokenizer wettbewerbsfähige ASR-Leistung ohne Hilfs-Encoder. Unsere Ergebnisse positionieren die CAT-Architektur als eine vereinheitlichte, skalierbare Schnittstelle für die nächste Generation nativer Audio-Foundation-Modelle.
Die Synthese kohärenter Soundtracks für Langform-Videos stellt nach wie vor eine große Herausforderung dar, die derzeit durch drei kritische Hindernisse blockiert wird: Skalierbarkeit der Berechnungen, zeitliche Kohärenz und, am wichtigsten, eine tiefgreifende semantische Blindheit gegenüber der sich entwickelnden narrativen Logik. Um diese Lücken zu schließen, schlagen wir NarraScore vor, einen hierarchischen Rahmen, der auf der grundlegenden Erkenntnis basiert, dass Emotion eine hochverdichtete Komprimierung narrativer Logik darstellt. Einzigartig ist, dass wir eingefrorene Vision-Language-Modelle (VLMs) als kontinuierliche affektive Sensoren zweckentfremden, um hochdimensionale visuelle Ströme in dichte, narrativ bewusste Valenz-Arousal-Verläufe zu destillieren. Mechanistisch setzt NarraScore eine Dual-Branch-Injection-Strategie ein, um globale Struktur mit lokaler Dynamik in Einklang zu bringen: Ein Global Semantic Anchor gewährleistet stilistische Stabilität, während ein präziser Token-Level Affective Adapter die lokale Spannung durch direkte elementweise Residualinjektion moduliert. Dieses minimalistisches Design umgeht die Engpässe von Dense-Attention und architektonischem Klonen und mildert wirksam die mit Datenknappheit verbundenen Überanpassungsrisiken. Experimente zeigen, dass NarraScore state-of-the-art Konsistenz und narrative Ausrichtung mit vernachlässigbarem Rechenaufwand erreicht und damit ein vollständig autonomes Paradigma für die Soundtrack-Generierung von Langvideos etabliert.
Juristisches Denken erfordert nicht nur korrekte Ergebnisse, sondern auch verfahrenskonforme Denkprozesse. Bisherige Methoden verfügen jedoch über keine Mechanismen zur Überprüfung von Zwischenschritten, sodass Fehler wie unzutreffende Gesetzeszitate unerkannt durch die Argumentationskette weitergegeben werden können. Um dies zu adressieren, schlagen wir LawThinker vor – einen autonomen juristischen Recherche-Agenten, der eine Explore-Verify-Memorize-Strategie für dynamische Justizumgebungen anwendet. Der Kernansatz besteht darin, die Verifizierung als atomaren Schritt nach jeder Wissenserschließung durchzuführen. Ein DeepVerifier-Modul prüft jedes Rechercheergebnis entlang dreier Dimensionen: Wissensgenauigkeit, Tatsachen-Rechts-Relevanz und Verfahrenskonformität, unterstützt durch ein Gedächtnismodul für wiederverwendbares Wissen in mehrstufigen Aufgaben. Experimente mit der dynamischen Benchmark J1-EVAL zeigen, dass LawThinker eine 24 %ige Verbesserung gegenüber direktem Schließen und 11 % gegenüber workflow-basierten Methoden erzielt, mit besonders deutlichen Verbesserungen bei prozessorientierten Metriken. Evaluierungen auf drei statischen Benchmarks bestätigen seine Generalisierungsfähigkeit. Der Code ist verfügbar unter https://github.com/yxy-919/LawThinker-agent.
Bestehende multimodale große Sprachmodelle haben hochpräzise visuelle Wahrnehmung und explorative Bildgenerierung erreicht. Dennoch besteht in komplexen Reasoning-Aufgaben ein Präzisionsparadoxon: Optische Wahrnehmungssysteme transkribieren Symbole ohne Erfassung logischer Topologien, während pixelbasierte Generative Modelle visuelle Artefakte ohne mathematische Exaktheit erzeugen. Um diese Lücke zu schließen, schlagen wir vor, Reasoning über visuelle Eingaben als optische Dekompression neu zu konzipieren – den Prozess der Rekonstruktion latenter logischer Strukturen aus komprimierten visuellen Tokens. Geleitet vom Axiom, dass Parsing Reasoning ist, führen wir Thinking with Drafting (TwD) ein, das eine minimalistische domainspezifische Sprache (DSL) als verankerte Zwischendarstellung nutzt. Im Gegensatz zu Standardansätzen, die Antworten direkt halluzinieren, zwingt TwD das Modell, sein mentales Modell in ausführbaren Code zu übersetzen und deterministische visuelle Beweise zur Selbstverifikation zu erzeugen. Zur Validierung präsentieren wir VisAlg, einen Benchmark für visuelle Algebra. Experimente zeigen, dass TwD als überlegene kognitive Stütze dient. Unsere Arbeit etabliert ein geschlossenes System, in dem visuelle Generierung nicht als kreative Ausgabe, sondern als logischer Verifikator agiert und einen verallgemeinerbaren Pfad für visuelles Reasoning bietet.
Um effektives Test-Time-Scaling zu erreichen, müssen Modelle zu In-Context Exploration fähig sein – der intrinsischen Fähigkeit, mehrere Reasoning-Hypothesen innerhalb eines einzigen kontinuierlichen Kontexts zu generieren, zu verifizieren und zu verfeinern. Basierend auf der State-Coverage-Theorie identifiziert unsere Analyse einen kritischen Engpass für diese Fähigkeit: Während eine breitere Zustandsabdeckung längere Reasoning-Pfade erfordert, zerfällt die Wahrscheinlichkeit, solche Sequenzen zu sampeln, während der autoregressiven Generierung exponentiell – ein Phänomen, das wir als „Shallow Exploration Trap“ bezeichnen. Um diese Lücke zu schließen, schlagen wir Length-Incentivized Exploration (\method) vor. Dieses einfache, aber effektive Verfahren ermutigt Modelle explizit durch eine längenbasierte Belohnung, gekoppelt mit einer Redundanzstrafe, zu mehr Exploration und maximiert so die Zustandsabdeckung in einem zweistufigen Prozess. Umfassende Experimente mit verschiedenen Modellen (Qwen3, Llama) zeigen, dass \method In-Context-Exploration effektiv fördert. Infolgedessen erzielt unsere Methode durchschnittlich eine Verbesserung von 4,4 % bei in-domain Aufgaben und einen Zuwachs von 2,7 % auf out-of-domain Benchmarks.
Trotz der anhaltenden Vergrößerung der Modellkapazität und Datenerfassung bleiben Vision-Language-Action (VLA)-Modelle anfällig bei kontaktintensiven und dynamischen Manipulationsaufgaben, bei denen geringfügige Ausführungsabweichungen zu Fehlschlägen kumulieren können. Während Reinforcement Learning (RL) einen prinzipiellen Weg zu Robustheit bietet, ist On-Policy-RL in der physischen Welt durch Sicherheitsrisiken, Hardwarekosten und Umweltresets eingeschränkt. Um diese Lücke zu schließen, stellen wir RISE vor, einen skalierbaren Rahmen für robotisches Reinforcement Learning durch Imagination. Sein Kernstück ist ein Compositional World Model, das (i) multivariable Zukunftszustände über ein steuerbares Dynamikmodell vorhersagt und (ii) imaginierte Ergebnisse mit einem Fortschrittswertmodell bewertet, wodurch informative Advantages für die Verbesserung der Policy erzeugt werden. Ein solches kompositionelles Design ermöglicht es, Zustand und Wert durch jeweils am besten geeignete, jedoch unterschiedliche Architekturen und Zielsetzungen anzupassen. Diese Komponenten sind in eine geschlossene, sich selbst verbessernde Pipeline integriert, die kontinuierlich imaginäre Rollouts erzeugt, Advantages schätzt und die Policy im Imaginärraum aktualisiert, ohne kostspielige physische Interaktion. In drei anspruchsvollen realen Aufgaben erzielt RISE eine signifikante Verbesserung gegenüber dem Stand der Technik, mit einer absoluten Leistungssteigerung von mehr als +35 % bei der dynamischen Ziegelsteinsortierung, +45 % beim Rucksackpacken und +35 % beim Boxverschluss.
Visuelle Illusionen basieren traditionell auf räumlichen Manipulationen wie Multi-View-Konsistenz. In dieser Arbeit führen wir Progressive Semantische Illusionen ein, eine neuartige Vektor-Skizzieraufgabe, bei der eine einzelne Skizze durch die sequenzielle Hinzufügung von Strichen eine dramatische semantische Transformation durchläuft. Wir präsentieren Stroke of Surprise, ein generatives Framework, das Vektorstriche so optimiert, dass sie in verschiedenen Zeichenstadien distincte semantische Interpretationen erfüllen. Die Kernherausforderung liegt in der "Dual-Constraint": Anfangsstrichfolgen müssen ein kohärentes Objekt (z.B. eine Ente) bilden und gleichzeitig als strukturelle Grundlage für ein zweites Konzept (z.B. ein Schaf) dienen, wenn Delta-Striche hinzugefügt werden. Um dies zu lösen, schlagen wir ein sequenzbewusstes Joint-Optimization-Framework vor, das von einem Dual-Branch Score Distillation Sampling (SDS)-Mechanismus angetrieben wird. Im Gegensatz zu sequenziellen Ansätzen, die den Ausgangszustand einfrieren, passt unsere Methode Anfangsstriche dynamisch an, um einen "gemeinsamen strukturellen Unterraum" zu entdecken, der für beide Ziele gültig ist. Darüber hinaus führen wir einen neuartigen Overlay Loss ein, der räumliche Komplementarität erzwingt und strukturelle Integration anstelle von Verdeckung sicherstellt. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Baselines in Erkennbarkeit und Illusionsstärke signifikant übertrifft und visuelle Anagramme erfolgreich von der räumlichen in die zeitliche Dimension erweitert. Projektseite: https://stroke-of-surprise.github.io/
Hochzuverlässige robotische Manipulation mit langem Planungshorizont war traditionell auf große Datenmengen und Rechenleistung angewiesen, um komplexe dynamische Prozesse in der realen Welt zu verstehen. Wir stellen jedoch fest, dass der primäre Engpass für Robustheit in der realen Welt nicht allein die Ressourcenskala ist, sondern die Verteilungsverschiebung zwischen der Verteilung menschlicher Demonstrationen, der durch die Policy erlernten induktiven Verzerrung und der Verteilung zur Testzeit – eine systematische Inkonsistenz, die sich verstärkende Fehler in mehrstufigen Aufgaben verursacht. Um diese Inkonsistenzen zu mildern, schlagen wir χ₀ vor, ein ressourceneffizientes Framework mit effektiven Modulen, die entwickelt wurden, um Produktionsniveau-Robustheit in der robotischen Manipulation zu erreichen. Unser Ansatz basiert auf drei technischen Säulen: (i) Model Arithmetic, eine Strategie zur Gewichtsraum-Verschmelzung, die effizient verschiedene Verteilungen unterschiedlicher Demonstrationen aufnimmt, von Objekterscheinungen bis zu Zustandsvariationen; (ii) Stage Advantage, ein stufenbewusster Advantage-Schätzer, der stabile, dichte Fortschrittssignale liefert und die numerische Instabilität früherer stufenunabhängiger Ansätze überwindet; und (iii) Train-Deploy Alignment, das die Verteilungslücke durch räumlich-zeitliche Augmentierung, heuristische DAgger-Korrekturen und glättende zeitliche Stückverarbeitung überbrückt. χ₀ ermöglicht es zwei Sätzen von Zweiarmrobotern, langfristige Textilmanipulation kollaborativ zu orchestrieren, von Aufgaben des Glättens und Faltens bis zum Aufhängen verschiedener Kleidungsstücke. Unsere Methode zeigt hochzuverlässige Autonomie; wir sind in der Lage, das System ab einem beliebigen Ausgangszustand 24 Stunden ununterbrochen laufen zu lassen. Experimente bestätigen, dass χ₀ den State-of-the-Art π₀.₅ in der Erfolgsrate um fast 250% übertrifft, mit nur 20 Stunden Daten und 8 A100 GPUs. Code, Daten und Modelle werden veröffentlicht, um die Gemeinschaft zu unterstützen.
Menschliche Demonstrationen bieten eine reiche Umweltvielfalt und skalieren auf natürliche Weise, was sie zu einer attraktiven Alternative zur Roboterteleoperation macht. Während dieses Paradigma die Manipulation mit Roboterarmen vorangetrieben hat, ist sein Potenzial für das anspruchsvollere, datenhungrigere Problem der humanoiden Loko-Manipulation weitgehend unerforscht. Wir stellen EgoHumanoid vor, den ersten Rahmenansatz zur gemeinsamen Ausbildung einer Vision-Sprache-Handlungs-Policy unter Verwendung umfangreicher egozentrischer menschlicher Demonstrationen zusammen mit einer begrenzten Menge an Roboterdaten, der Humanoiden ermöglicht, Loko-Manipulation in verschiedenen realen Umgebungen durchzuführen. Um die Verkörperungslücke zwischen Menschen und Robotern, einschließlich der Diskrepanzen in der physischen Morphologie und der Perspektive, zu überbrücken, führen wir eine systematische Abgleichpipeline ein, die vom Hardware-Design bis zur Datenverarbeitung reicht. Es wird ein tragbares System zur skalierbaren Erfassung menschlicher Daten entwickelt, und wir etablieren praktische Erfassungsprotokolle zur Verbesserung der Übertragbarkeit. Im Kern unserer Human-to-Humanoid-Abgleichpipeline liegen zwei Schlüsselkomponenten. Die Blickwinkelanpassung reduziert visuelle Domänenunterschiede, die durch Variationen in Kamerahöhe und Perspektive verursacht werden. Die Handlungsanpassung bildet menschliche Bewegungen in einen einheitlichen, kinematisch machbaren Handlungsraum zur Humanoidsteuerung ab. Umfangreiche Experimente in der realen Welt zeigen, dass die Einbeziehung egozentrischer Daten ohne Robotereinsatz roboterbasierte Vergleichsmodelle um 51 % übertrifft, insbesondere in ungesehenen Umgebungen. Unsere Analyse zeigt weiterhin, welche Verhaltensweisen effektiv übertragbar sind und das Potenzial zur Skalierung menschlicher Daten.
Diffusion Large Language Models (dLLMs) stellen ein neues Paradigma jenseits der autoregressiven Modellierung dar und bieten eine wettbewerbsfähige Leistung, während sie gleichzeitig einen flexiblen Decodierungsprozess ermöglichen. Insbesondere können dLLMs Token an beliebigen Positionen parallel generieren, was ihnen ein erhebliches Potenzial für paralleles Skalieren zur Testzeit verleiht, das zuvor durch erhebliche Ineffizienz in der autoregressiven Modellierung eingeschränkt war. In dieser Arbeit stellen wir dVoting vor, eine schnelle Voting-Technik, die die Reasoning-Fähigkeit ohne Training steigert und dabei nur einen akzeptablen zusätzlichen Rechenaufwand erfordert. dVoting ist motiviert durch die Beobachtung, dass Token-Vorhersagen über mehrere Stichproben für denselben Prompt hinweg weitgehend konsistent bleiben, während die Leistung von einer kleinen Teilmenge von Token bestimmt wird, die eine variierende Vorhersage über die Stichproben hinweg aufweisen. Unter Ausnutzung der Fähigkeit von dLLMs, Token an beliebigen Positionen zu generieren, führt dVoting eine iterative Verbesserung durch Sampling durch, identifiziert unsichere Token mittels Konsistenzanalyse, regeneriert sie durch Voting und wiederholt diesen Prozess bis zur Konvergenz. Umfangreiche Auswertungen zeigen, dass dVoting die Leistung über verschiedene Benchmarks hinweg konsistent verbessert. Es erzielt Steigerungen von 6,22 %–7,66 % auf GSM8K, 4,40 %–7,20 % auf MATH500, 3,16 %–14,84 % auf ARC-C und 4,83 %–5,74 % auf MMLU. Unser Code ist verfügbar unter https://github.com/fscdc/dVoting.
Wir stellen Voxtral Realtime vor, ein nativ streamendes automatisches Spracherkennungsmodell, das die Transkriptionsqualität von Offline-Modellen bei Latenzen unter einer Sekunde erreicht. Im Gegensatz zu Ansätzen, die Offline-Modelle durch Segmentierung oder gleitende Fenster anpassen, wird Voxtral Realtime end-to-end für das Streaming trainiert, mit expliziter Ausrichtung zwischen Audio- und Textströmen. Unsere Architektur baut auf dem Delayed Streams Modeling-Framework auf und führt einen neuen kausalen Audio-Encoder sowie Ada RMS-Norm für eine verbesserte Verzögerungsbedingung ein. Wir skalieren das Vortraining auf einen umfangreichen Datensatz, der 13 Sprachen umfasst. Bei einer Verzögerung von 480 ms erzielt Voxtral Realtime eine Leistung, die mit Whisper, dem am weitesten verbreiteten Offline-Transkriptionssystem, vergleichbar ist. Wir veröffentlichen die Modellgewichte unter der Apache-2.0-Lizenz.
Warum muss die visuell-sprachliche Navigation an detaillierte und umfangreiche Sprachinstruktionen gebunden sein? Während solche Details die Entscheidungsfindung erleichtern, widersprechen sie grundlegend dem Ziel der Navigation in der realen Welt. Im Idealfall sollten Agenten die Autonomie besitzen, sich in unbekannten Umgebungen nur von einfachen, hochleveligen Absichten leiten zu lassen. Die Verwirklichung dieses Ziels stellt eine gewaltige Herausforderung dar: Navigation über den Sichtbereich hinaus (Beyond-the-View Navigation, BVN), bei der Agenten entfernte, nicht sichtbare Ziele ohne dichte, schrittweise Anweisungen lokalisieren müssen. Bestehende Methoden auf Basis großer Sprachmodelle (Large Language Models, LLMs), obwohl geschickt im Befolgen dichter Instruktionen, neigen oft zu kurzsichtigem Verhalten aufgrund ihrer Abhängigkeit von Kurzzeithorizont-Aufsicht. Eine einfache Ausweitung des Aufsichtshorizonts destabilisiert jedoch das LLM-Training. In dieser Arbeit stellen wir fest, dass Videogenerierungsmodelle inhärent von einer Langzeithorizont-Aufsicht profitieren, um sich mit Sprachinstruktionen in Einklang zu bringen, was sie einzigartig für BVN-Aufgaben geeignet macht. Gestützt auf diese Erkenntnis schlagen wir vor, das Videogenerierungsmodell erstmals in diesem Bereich einzusetzen. Doch die prohibitive Latenz bei der Generierung von Videos über mehrere zehn Sekunden macht einen praktischen Einsatz in der realen Welt unmöglich. Um diese Lücke zu schließen, schlagen wir SparseVideoNav vor, das Trajektorieninferenz im Subsekundenbereich ermöglicht, geleitet von einer generierten, spärlichen Zukunftsvorschau über einen 20-Sekunden-Horizont. Dies führt zu einer bemerkenswerten 27-fachen Beschleunigung im Vergleich zum nicht optimierten Gegenstück. Umfangreiche Zero-Shot-Experimente in der realen Welt zeigen, dass SparseVideoNav auf BVN-Aufgaben eine 2,5-fach höhere Erfolgsquote als state-of-the-art LLM-Baselines erreicht und erstmals solche Fähigkeiten in anspruchsvollen Nachtszenen realisiert.
Mit der rasanten Entwicklung großer Modelle (LMs) gewinnt auch ihre Sicherheit zunehmend an Bedeutung. In den derzeitigen Sicherheits-Workflows für große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) werden Evaluation, Diagnose und Alignment häufig von separaten Tools durchgeführt. Konkret kann die Sicherheitsevaluation zwar externe Verhaltensrisiken identifizieren, jedoch keine internen Ursachen aufdecken. Gleichzeitig entfernt sich die Sicherheitsdiagnose oft von konkreten Risikoszenarien und bleibt auf einer erklärenden Ebene. Dadurch mangelt es beim Safety Alignment an spezifischen Erklärungen für Veränderungen in den internen Mechanismen, was möglicherweise die allgemeinen Fähigkeiten beeinträchtigt. Um diese Probleme systematisch anzugehen, schlagen wir ein Open-Source-Projekt namens DeepSight vor, das ein neues, integriertes Paradigma für Sicherheitsevaluation und -diagnose praktisch umsetzt. DeepSight ist ein kostengünstiges, reproduzierbares, effizientes und hochskalierbares Sicherheitsevaluationsprojekt für große Modelle, das aus dem Evaluation-Toolkit DeepSafe und dem Diagnose-Toolkit DeepScan besteht. Durch die Vereinheitlichung von Aufgaben- und Datenprotokollen schaffen wir eine Verbindung zwischen den beiden Phasen und transformieren die Sicherheitsevaluation von einer Black-Box- zu einer White-Box-Betrachtung. Zudem ist DeepSight das erste Open-Source-Toolkit, das die Evaluation fortschrittlicher KI-Risiken sowie die gemeinsame Sicherheitsevaluation und -diagnose unterstützt.
Das Verständnis von E-Commerce-Produkten erfordert von Natur aus ein starkes multimodales Verständnis aus Text, Bildern und strukturierten Attributen. Allgemeine Vision-Language-Modelle (VLMs) ermöglichen eine generalisierbare multimodale latente Modellierung, jedoch gibt es keine dokumentierte, bekannte Strategie, um sie an die attributzentrierte, multi-bildliche und verrauschte Natur von E-Commerce-Daten anzupassen, ohne die allgemeine Leistungsfähigkeit zu beeinträchtigen. In dieser Arbeit zeigen wir durch eine groß angelegte experimentelle Studie, wie eine gezielte Anpassung allgemeiner VLMs die E-Commerce-Leistung erheblich verbessern kann, während breite multimodale Fähigkeiten erhalten bleiben. Darüber hinaus schlagen wir eine neuartige, umfangreiche Evaluierungssuite vor, die tiefgehendes Produktverständnis, strikte Befolgung von Anweisungen und dynamische Attributextraktion abdeckt.
Wir stellen Gaia2 vor, einen Benchmark zur Bewertung von Agenten großer Sprachmodelle in realistischen, asynchronen Umgebungen. Im Gegensatz zu früheren statischen oder synchronen Evaluationen führt Gaia2 Szenarien ein, in denen sich Umgebungen unabhängig von Agentenaktionen entwickeln. Dies erfordert, dass Agenten unter zeitlichen Beschränkungen operieren, sich an verrauschte und dynamische Ereignisse anpassen, Mehrdeutigkeiten auflösen und mit anderen Agenten zusammenarbeiten. Jedes Szenario ist mit einem Write-Action-Verifier gepaart, der eine feingranulare, aktionsbasierte Evaluation ermöglicht und Gaia2 direkt für bestärkendes Lernen aus verifizierbaren Belohnungen nutzbar macht. Unsere Evaluation aktueller proprietärer und Open-Source-Modelle zeigt, dass kein Modell in allen Fähigkeiten dominiert: GPT-5 (high) erreicht die höchste Gesamtpunktzahl von 42% pass@1, scheitert jedoch bei zeitkritischen Aufgaben; Claude-4 Sonnet opfert Genauigkeit und Geschwindigkeit für Kostenersparnis; Kimi-K2 führt unter den Open-Source-Modellen mit 21% pass@1. Diese Ergebnisse verdeutlichen grundlegende Zielkonflikte zwischen logischem Denken, Effizienz und Robustheit und zeigen Herausforderungen bei der Schließung der "Sim2Real"-Lücke auf. Gaia2 basiert auf einer Consumer-Umgebung mit der Open-Source-Plattform Agents Research Environments und ist für einfache Erweiterbarkeit konzipiert. Durch die Veröffentlichung von Gaia2 zusammen mit dem grundlegenden ARE-Framework wollen wir der Community eine flexible Infrastruktur zur Entwicklung, Bewertung und Ausbildung der nächsten Generation praktischer Agentensysteme bereitstellen.
Die Landschaft der KI-Videogenerierung durchläuft einen entscheidenden Wandel: weg von der allgemeinen Generierung – die auf aufwändiger Prompt-Engineering und „Cherry-Picking“ basiert – hin zu fein granulärer, steuerbarer Generierung und hochwertiger Nachbearbeitung. Im professionellen KI-gestützten Filmemachen ist es entscheidend, präzise, zielgerichtete Modifikationen vorzunehmen. Ein Grundpfeiler dieses Übergangs ist die Videoinstanz-Einfügung, bei der eine bestimmte Instanz in bestehendes Filmmaterial eingefügt werden muss, während die Szenenintegrität erhalten bleibt. Im Gegensatz zur traditionellen Videobearbeitung erfordert diese Aufgabe mehrere Bedingungen: präzise räumlich-zeitliche Platzierung, physikalisch konsistente Szeneninteraktion und die originalgetreue Bewahrung der ursprünglichen Dynamik – alles mit minimalem Benutzeraufwand. In diesem Artikel stellen wir PISCO vor, ein Video-Diffusionsmodell zur präzisen Videoinstanz-Einfügung mit beliebiger Steuerung durch spärliche Keyframes. PISCO ermöglicht es Benutzern, einen einzelnen Keyframe, Start- und End-Keyframes oder spärliche Keyframes zu beliebigen Zeitpunkten festzulegen, und propagiert automatisch das Objekterscheinungsbild, die Bewegung und die Interaktion. Um die schwerwiegende Distributionsverschiebung zu adressieren, die durch spärliche Konditionierung in vortrainierten Video-Diffusionsmodellen verursacht wird, führen wir eine Variable-Information Guidance für robuste Konditionierung und ein Distribution-Preserving Temporal Masking zur Stabilisierung der zeitlichen Generierung ein, ergänzt durch geometrie-bewusste Konditionierung für realistische Szenenanpassung. Wir erstellen weiterhin PISCO-Bench, einen Benchmark mit verifizierten Instanz-Annotationen und gepaarten sauberen Hintergrundvideos, und bewerten die Leistung anhand sowohl referenzbasierter als auch referenzfreier wahrnehmungsbezogener Metriken. Experimente zeigen, dass PISCO unter spärlicher Steuerung durchweg starke Inpainting- und Videobearbeitungs-Baselines übertrifft und klare, monotone Leistungsverbesserungen zeigt, sobald zusätzliche Steuersignale bereitgestellt werden. Projektseite: xiangbogaobarry.github.io/PISCO.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), insbesondere GRPO, hat sich zum Standard für das Hervorrufen von LLM-Argumentation entwickelt. Seine Effizienz bei der Exploration und Schwierigkeitsanpassung bleibt jedoch eine offene Herausforderung. In dieser Arbeit argumentieren wir, dass diese Engpässe von einer impliziten Vorteilssymmetrie herrühren, die der Gruppenrelativen Vorteilsschätzung (GRAE) innewohnt. Diese Symmetrie induziert zwei kritische Einschränkungen: (i) Auf Gruppenebene lässt die strikte Symmetrie in den Gewichten zwischen korrekten und inkorrekten Trajektorien die ungesampelten Aktionslogits unverändert, was folglich die Exploration neuartiger korrekter Lösungen behindert. (ii) Auf der Probenebene priorisiert der Algorithmus implizit Proben mittlerer Schwierigkeit und bleibt gegenüber den nicht-stationären Anforderungen einer Schwierigkeitsfokussierung agnostisch. Durch kontrollierte Experimente zeigen wir, dass diese symmetrische Eigenschaft suboptimal ist, was zwei zentrale Erkenntnisse liefert: (i) Das asymmetrische Unterdrücken der Vorteile korrekter Trajektorien fördert die notwendige Exploration. (ii) Die Lerneffizienz wird durch einen curriculumähnlichen Übergang maximiert, der zunächst einfachere Proben priorisiert, bevor schrittweise zu komplexeren übergegangen wird. Motiviert durch diese Erkenntnisse schlagen wir Asymmetrische GRAE (A-GRAE) vor, das Explorationsanreize und den Proben-Schwierigkeitsfokus dynamisch moduliert. Experimente über sieben Benchmarks demonstrieren, dass A-GRAE GRPO und seine Varianten durchgängig sowohl bei LLMs als auch MLLMs verbessert.
Aktuelle Forschungsarbeiten untersuchen latentes Reasoning, um die Reasoning-Effizienz durch den Ersatz expliziter Reasoning-Pfade mit kontinuierlichen Repräsentationen in einem latenten Raum zu verbessern, doch deren Wirksamkeit variiert je nach Setting. Eine Analyse der Modellkonfidenzdynamik unter latentem Reasoning zeigt, dass Denkpfade, die mit falschen Antworten enden, weniger Schritte mit niedriger Konfidenz aufweisen als solche, die zu korrekten Antworten führen. Gleichzeitig legen wir nahe, dass Soft-Embeddings, die durch mehrere Denkalternativen mit niedriger Konfidenz aggregiert werden, Rauschen einführen und verstärken können, was zu hoher Konfidenz in unzuverlässigen Reasoning-Pfaden führt. Motiviert durch diese Beobachtungen wird ThinkRouter vorgeschlagen – ein konfidenzsensitives Routing-Mechanismus zur Inferenzzeit, der hohe Konfidenz und Rauschen zur Effizienzsteigerung des Reasonings vermeidet. ThinkRouter leitet das Denken in den diskreten Token-Raum um, wenn die Modellkonfidenz niedrig ist, und ansonsten in den latenten Raum. Umfangreiche Experimente mit STEM-Reasoning- und Coding-Benchmarks über diverse große Reasoning-Modelle hinweg zeigen, dass ThinkRouter explizite CoT-, zufälliges Routing- und latente Reasoning-Baselines in puncto Genauigkeit übertrifft und eine durchschnittliche Steigerung von 19,70 Punkten in Pass@1 erreicht, bei gleichzeitiger Reduzierung der Generierungslänge um bis zu 15,55%. Eine weiterführende umfassende Analyse offenbart, dass ThinkRouter Fehler, die aus explizitem CoT und latentem Reasoning entstehen, kalibrieren kann und die Generierung von End-of-Thinking-Tokens beschleunigt, indem global die Modellkonfidenz gesenkt wird.
Diffusionsgroßsprachmodelle (DLLMs) haben das Potenzial, durch parallele Decodierung mehrerer Tokens eine schnelle Texterzeugung zu ermöglichen. In der Praxis wird ihre Inferenzeffizienz jedoch durch die Notwendigkeit vieler Verfeinerungsschritte eingeschränkt, während eine aggressive Reduzierung der Schrittzahl zu einer erheblichen Verschlechterung der Generierungsqualität führt. Um dies zu mildern, schlagen wir einen Trajektorien-Selbstdistillationsrahmen vor, der die Few-Step-Decodierung durch Destillation der eigenen generativen Trajektorien des Modells verbessert. Wir integrieren Direct Discriminative Optimization (DDO), ein Reverse-KL-Ziel, das eine modus-suchende Destillation fördert und den Studenten dazu anregt, sich auf hochwahrscheinliche Teacher-Modi zu konzentrieren. In Benchmarks übertrifft unser Ansatz durchgängig starke Few-Step-Baselines und Standardtraining unter strengen Schrittbudgets. Obwohl die Decodierung mit voller Schrittzahl überlegen bleibt, verringern wir die Lücke erheblich und schaffen so eine solide Grundlage für praktisch einsetzbare Few-Step-DLLMs. Der Quellcode ist verfügbar unter https://github.com/Tyrion58/T3D.
Einzel-Minus-Baum-Level-n-Gluon-Streuamplituden werden erneut betrachtet. Obwohl oft angenommen, dass sie verschwinden, wird hier gezeigt, dass sie für bestimmte "halbkollineare" Konfigurationen, die im Klein-Raum existieren oder für komplexifizierte Impulse, nicht verschwinden. Wir leiten einen abschnittsweise konstanten geschlossenen Ausdruck für den Zerfall eines einzelnen Minus-Helizitäts-Gluons in n-1 Plus-Helizitäts-Gluonen als Funktion ihrer Impulse her. Diese Formel erfüllt auf nichttriviale Weise mehrere Konsistenzbedingungen, einschließlich des Weinbergschen Soft-Theorems.
Langzeitgedächtnis ermöglicht es Agenten auf Basis großer Sprachmodelle, komplexe Aufgaben durch historische Interaktionen zu bewältigen. Allerdings stehen bestehende Frameworks vor einem grundlegenden Dilemma zwischen effizienter Komprimierung redundanter Informationen und der Aufrechterhaltung präziser Abrufbarkeit für nachgelagerte Aufgaben. Um diese Lücke zu schließen, schlagen wir MemFly vor – ein Framework, das auf dem Prinzip der Informationsengstelle basiert und eine dynamische Gedächtnisentwicklung für LLMs ermöglicht. Unser Ansatz minimiert die Komprimierungsentropie und maximiert gleichzeitig die Relevanzentropie durch einen gradientenfreien Optimierer, wodurch eine geschichtete Gedächtnisstruktur für effiziente Speicherung aufgebaut wird. Um MemFly voll auszuschöpfen, entwickelten wir einen hybriden Abrufmechanismus, der semantische, symbolische und topologische Pfade nahtlos integriert und iterative Verfeinerung zur Bewältigung komplexer Multi-Hop-Abfragen einbezieht. Umfassende Experimente zeigen, dass MemFly state-of-the-art Baseline-Methoden in puncto Gedächtniskohärenz, Antworttreue und Genauigkeit erheblich übertrifft.
Die Entwicklung großer Sprachmodelle (LLMs) für Anwendungen mit ultra-langen Kontexten sieht sich mit Herausforderungen konfrontiert, die durch die hohen Rechen- und Speicherkosten der Transformer-Architektur verursacht werden. Während bestehende spärliche und lineare Aufmerksamkeitsmechanismen versuchen, diese Probleme zu mildern, gehen sie typischerweise mit einem Kompromiss zwischen Speichereffizienz und Modellleistung einher. Dieses Paper stellt MiniCPM-SALA vor, eine hybride Architektur mit 9 Milliarden Parametern, die die hochpräzise Langzeit-Kontextmodellierung von Sparse-Attention (InfLLM-V2) mit der globalen Effizienz von Linear-Attention (Lightning Attention) integriert. Durch den Einsatz eines Layer-Auswahlalgorithmus zur Integration dieser Mechanismen im Verhältnis 1:3 und die Verwendung einer hybriden Positionskodierung (HyPE) bewahrt das Modell Effizienz und Leistung für Aufgaben mit langen Kontexten. Darüber hinaus führen wir ein kostengünstiges kontinuierliches Trainingsframework ein, das vortrainierte Transformer-basierte Modelle in hybride Modelle umwandelt und die Trainingskosten im Vergleich zum Training von Grund auf um etwa 75 % reduziert. Umfangreiche Experimente zeigen, dass MiniCPM-SALA allgemeine Fähigkeiten beibehält, die mit Full-Attention-Modellen vergleichbar sind, bei gleichzeitig verbesserter Effizienz. Auf einer einzelnen NVIDIA A6000D GPU erreicht das Modell eine bis zu 3,5-fache Inferenzgeschwindigkeit des Full-Attention-Modells bei einer Sequenzlänge von 256.000 Tokens und unterstützt Kontextlängen von bis zu 1 Million Tokens – eine Größenordnung, bei der traditionelle 8-Milliarden-Parameter-Modelle mit voller Aufmerksamkeit aufgrund von Speicherbeschränkungen versagen.
Offenes Lernen (Open-ended Learning) betrachtet Intelligenz als ein Phänomen, das aus der kontinuierlichen Interaktion mit einem sich ständig erweiternden Raum von Umgebungen entsteht. Obwohl neuere Fortschritte Foundation Models genutzt haben, um programmgesteuert diverse Umgebungen zu generieren, konzentrieren sich diese Ansätze oft auf die Entdeckung isolierter Verhaltensweisen anstatt auf die Orchestrierung einer nachhaltigen Progression. In komplexen, offenen Welten erschwert der große kombinatorische Raum möglicher Herausforderungen es Agenten, Abfolgen von Erfahrungen zu entdecken, die konsistent erlernbar bleiben. Um dies zu adressieren, schlagen wir Dreaming in Code (DiCode) vor, einen Rahmen, in dem Foundation Models ausführbaren Umgebungscode synthetisieren, um den Lernprozess in Richtung steigender Kompetenz zu unterstützen. In DiCode nimmt das "Träumen" die Form der Materialisierung von Code-Varianten der Welt an. Wir implementieren DiCode in Craftax, einem anspruchsvollen, offenen Benchmark, der durch reichhaltige Mechaniken und langfristige Progression gekennzeichnet ist. Empirisch ermöglicht DiCode Agenten, langfristige Fähigkeiten zu erwerben, und erzielt eine 16%ige Verbesserung der mittleren Ausbeute gegenüber der stärksten Baseline sowie nicht-null Erfolge bei späten Kampfaufgaben, bei denen bisherige Methoden versagen. Unsere Ergebnisse legen nahe, dass Umgebungsgestaltung auf Code-Ebene einen praktischen Mechanismus für Curriculum Control bietet, der die Konstruktion intermediärer Umgebungen ermöglicht, die Kompetenzlücken in offenen Welten überbrücken. Projektseite und Quellcode sind verfügbar unter https://konstantinosmitsides.github.io/dreaming-in-code und https://github.com/konstantinosmitsides/dreaming-in-code.
Das Pretraining großer Sprachmodelle (LLMs) erfordert typischerweise zentralisierte Cluster mit Tausenden von Hochleistungs-GPUs mit großem Speicher (z.B. H100/A100). Neuere dezentrale Trainingsmethoden reduzieren den Kommunikationsaufwand durch den Einsatz federierter Optimierung; dennoch müssen sie weiterhin das gesamte Modell auf jedem Knoten trainieren und bleiben dadurch durch GPU-Speicherbeschränkungen eingeschränkt. In dieser Arbeit schlagen wir SParse Expert Synchronization (SPES) vor, einen speichereffizienten dezentralen Rahmen für das Pretraining von Mixture-of-Experts (MoE) LLMs. SPES trainiert nur eine Teilmenge der Experten pro Knoten, was den Speicherbedarf erheblich senkt. Jeder Knoten aktualisiert seine lokalen Experten und synchronisiert sich periodisch mit anderen Knoten, wodurch die Übertragung vollständiger Parameter entfällt, während eine effiziente Wissensweitergabe gewährleistet wird. Um die Konvergenz zu beschleunigen, führen wir eine Warm-up-Strategie durch Experten-Zusammenführung ein, bei der Experten in der frühen Trainingsphase Wissen austauschen, um schnell grundlegende Fähigkeiten aufzubauen. Mit SPES trainieren wir ein 2-Milliarden-Parameter MoE-LLM mit 16 eigenständigen 48GB-GPUs über Internetverbindungen, das eine wettbewerbsfähige Leistung im Vergleich zu zentral trainierten LLMs unter ähnlichen Rechenbudgets erzielt. Wir demonstrieren weiterhin die Skalierbarkeit, indem wir ein 7B-Modell von Grund auf trainieren und ein 9B-Modell aus einem dichten Checkpoint weiterentwickeln, die beide mit früheren zentralisierten Baseline-Modellen vergleichbar sind. Unser Code ist verfügbar unter https://github.com/zjr2000/SPES.
Der großflächige Einsatz von Robotern erfordert Robustheit gegenüber dem langen Schwanz alltäglicher Situationen. Die unzähligen Variationen in der Szenenanordnung, Objektgeometrie und Aufgabenstellung, die reale Umgebungen kennzeichnen, sind immens und in bestehenden Robotik-Benchmarks unterrepräsentiert. Die Messung dieses Generalisierungsniveaus erfordert eine Infrastruktur in einem Umfang und einer Vielfalt, die allein durch physische Evaluation nicht bereitgestellt werden kann. Wir stellen MolmoSpaces vor, ein vollständig offenes Ökosystem zur Unterstützung von großangelegten Benchmarking von Robotik-Policies. MolmoSpaces besteht aus über 230.000 vielfältigen Innenraumumgebungen, die von handgefertigten Haushaltsszenen bis hin zu prozedural generierten Mehrraumhäusern reichen, bevölkert mit 130.000 umfangreich annotierten Objekt-Assets, darunter 48.000 manipulierbare Objekte mit 42 Millionen stabilen Greifpositionen. Entscheidend ist, dass diese Umgebungen simulationsunabhängig sind und gängige Optionen wie MuJoCo, Isaac und ManiSkill unterstützen. Das Ökosystem unterstützt das gesamte Spektrum verkörperter Aufgaben: statische und mobile Manipulation, Navigation sowie langfristige Mehrraumaufgaben, die koordinierte Wahrnehmung, Planung und Interaktion über gesamte Innenraumumgebungen hinweg erfordern. Wir entwerfen zudem MolmoSpaces-Bench, eine Benchmark-Suite mit 8 Aufgaben, in denen Roboter mit unseren vielfältigen Szenen und annotierten Objekten interagieren. Unsere Experimente zeigen, dass MolmoSpaces-Bench eine starke Sim-to-Real-Korrelation aufweist (R = 0,96, ρ = 0,98), bestätigen, dass neuere und stärkere Zero-Shot-Policies in unseren Benchmarks frühere Versionen übertreffen, und identifizieren zentrale Sensitivitäten gegenüber Prompt-Formulierung, anfänglichen Gelenkpositionen und Kameraverschattung. Durch MolmoSpaces und seine Open-Source-Assets und -Werkzeuge bieten wir eine Grundlage für skalierbare Datengenerierung, Policy-Training und Benchmark-Erstellung für die Robotik-Lernforschung.
Unternehmensdokumente wie Formulare und Berichte enthalten kritische Informationen für nachgelagerte Anwendungen wie Datenarchivierung, automatisierte Workflows und Analysen. Obwohl generalistische Vision-Language-Models (VLMs) bei etablierten Benchmarks für Dokumentenverständnis gute Leistungen erbringen, ist ihre Fähigkeit zur ganzheitlichen, feingranularen und strukturierten Extraktion über verschiedene Dokumenttypen und flexible Schemata hinweg nicht gut erforscht. Bestehende Datensätze für Key Entity Extraction (KEE), Relation Extraction (RE) und Visual Question Answering (VQA) sind durch eingeschränkte Entitätsontologien, einfache Abfragen oder homogene Dokumenttypen limitiert und übersehen oft die Notwendigkeit adaptiver und strukturierter Extraktion. Um diese Lücken zu schließen, stellen wir ExStrucTiny vor, einen neuen Benchmark-Datensatz für strukturierte Informationsextraktion (IE) aus Dokumentbildern, der Aspekte von KEE, RE und VQA vereint. Erstellt durch eine neuartige Pipeline, die manuelle und synthetische, menschlich validierte Stichproben kombiniert, deckt ExStrucTiny vielfältigere Dokumenttypen und Extraktionsszenarien ab. Wir analysieren offene und geschlossene VLMs anhand dieses Benchmarks und beleuchten Herausforderungen wie Schemaanpassung, unzureichend spezifizierte Abfragen und Antwortlokalisierung. Wir hoffen, dass unsere Arbeit eine Grundlage für die Verbesserung generalistischer Modelle zur strukturierten IE in Dokumenten bietet.
Multimodale große Sprachmodelle (MLLMs) werden zunehmend für reale Aufgaben eingesetzt, die mehrstufiges Schlussfolgern und langformatige Generierung erfordern, wobei Zuverlässigkeit die Verankerung der Modellausgaben in heterogenen Eingabequellen und die Überprüfung einzelner faktischer Behauptungen voraussetzt. Bestehende Benchmarks und Evaluierungsmethoden für multimodale Verankerung konzentrieren sich jedoch auf vereinfachte, beobachtungsbasierte Szenarien oder begrenzte Modalitäten und versagen bei der Bewertung der Attribuierung in komplexem multimodalem Reasoning. Wir stellen MuRGAt (Multimodal Reasoning with Grounded Attribution) vor, einen Benchmark zur Bewertung faktenspezifischer multimodaler Attribuierung in Kontexten, die Reasoning über die direkte Beobachtung hinaus erfordern. Bei Eingaben, die Video, Audio und andere Modalitäten umfassen, erfordert MuRGAt von Modellen, Antworten mit expliziter Begründung und präzisen Zitaten zu generieren, wobei jedes Zitat sowohl die Modalität als auch zeitliche Segmente spezifiziert. Um eine zuverlässige Bewertung zu ermöglichen, führen wir ein automatisches Evaluierungsframework ein, das stark mit menschlichen Beurteilungen korreliert. Benchmarks mit menschlichen und automatisierten Bewertungen zeigen, dass selbst leistungsstarke MLLMs häufig Zitate halluzinieren, trotz korrekten Reasonings. Darüber hinaus beobachten wir einen zentralen Zielkonflikt: Eine Erhöhung der Reasoning-Tiefe oder die Erzwingung strukturierter Verankerung verschlechtert oft die Genauigkeit, was eine signifikante Lücke zwischen internem Reasoning und überprüfbarer Attribuierung aufzeigt.
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten im logischen Denken bewiesen, und ko-evolutive Paradigmen haben in Bereichen wie Code und Mathematik vielversprechende Ergebnisse gezeigt. Bei wissenschaftlichen Denkaufgaben bleiben diese Modelle jedoch aufgrund unzuverlässiger Lösungsbewertung und begrenzter Vielfalt an Verifikationsstrategien anfällig. In dieser Arbeit schlagen wir Sci-CoE vor, einen zweistufigen wissenschaftlichen Ko-Evolutionsrahmen, der es Modellen ermöglicht, sich sowohl als Löser als auch als Verifizierer durch den Übergang von spärlicher Überwachung zu unüberwachtem Lernen selbst weiterzuentwickeln. In der ersten Stufe nutzt das Modell einen kleinen Satz annotierter Daten, um grundlegende Richtigkeit-Beurteilungsanker für den Verifizierer zu etablieren. In der zweiten Stufe führen wir einen geometrischen Belohnungsmechanismus ein, der Konsens, Zuverlässigkeit und Diversität gemeinsam berücksichtigt und so großskalige Selbstiteration auf nicht annotierten Daten antreibt. Experimente auf mehreren allgemeinen wissenschaftlichen Benchmarks zeigen, dass Sci-CoE die Fähigkeiten zum komplexen logischen Denken verbessert und starke Skalierbarkeit aufweist, was den Aufbau robusterer und diverserer Bewertungssysteme erleichtert. Der Code ist verfügbar unter https://github.com/InternScience/Sci-CoE.
Die personalisierte Ausrichtung großer Sprachmodelle zielt darauf ab, Antworten an individuelle Benutzerpräferenzen anzupassen, typischerweise durch bestärkendes Lernen. Eine zentrale Herausforderung besteht darin, genaue, benutzerspezifische Belohnungssignale in offenen Szenarien zu erhalten. Bestehende personalisierte Belohnungsmodelle weisen zwei anhaltende Einschränkungen auf: (1) sie vereinfachen diverse, szenariospezifische Präferenzen übermäßig zu einem kleinen, festen Satz von Bewertungsprinzipien und (2) sie haben Schwierigkeiten mit der Generalisierung auf neue Benutzer mit begrenztem Feedback. Daher schlagen wir P-GenRM vor, das erste personalisierte generative Belohnungsmodell mit benutzerbasierter Skalierung zur Testzeit. P-GenRM transformiert Präferenzsignale in strukturierte Bewertungsketten, die adaptive Personas und Bewertungsraster über verschiedene Szenarien hinweg ableiten. Es gruppiert Benutzer weiterhin in Benutzerprototypen und führt einen dual-granularen Skalierungsmechanismus ein: Auf individueller Ebene skaliert und aggregiert es adaptiv das Bewertungsschema jedes Benutzers; auf Prototypenebene integriert es Präferenzen ähnlicher Benutzer. Dieser Ansatz mildert Rauschen in abgeleiteten Präferenzen und verbessert die Generalisierung auf unbekannte Benutzer durch prototypenbasierten Transfer. Empirische Ergebnisse zeigen, dass P-GenRM state-of-the-art Ergebnisse auf weit verbreiteten Benchmarks für personalisierte Belohnungsmodelle erzielt, mit einer durchschnittlichen Verbesserung von 2,31%, und starke Generalisierung auf einem Out-of-Distribution-Datensatz demonstriert. Bemerkenswerterweise bietet die benutzerbasierte Skalierung zur Testzeit eine zusätzliche Steigerung von 3%, was eine stärkere personalisierte Ausrichtung mit Testzeit-Skalierbarkeit demonstriert.
Das metaphorische Verständnis in Bildern bleibt eine kritische Herausforderung für heutige KI-Systeme. Während multimodale Large Language Models (MLLMs) bei grundlegender Visual Question Answering (VQA) hervorragende Leistungen erbringen, haben sie durchgängig Schwierigkeiten, die nuancierten kulturellen, emotionalen und kontextuellen Implikationen in visuellen Inhalten zu erfassen. Diese Schwierigkeit resultiert aus den Anforderungen der Aufgabe an anspruchsvolles Multi-Hop-Reasoning, kulturellen Kontext und Theory of Mind (ToM)-Fähigkeiten, über die aktuelle Modelle nicht verfügen. Um diese Lücke zu schließen, schlagen wir MetaphorStar vor, den ersten end-to-end Visual Reinforcement Learning (RL)-Framework für Bildimplikationsaufgaben. Unser Framework umfasst drei Kernkomponenten: den feinkörnigen Datensatz TFQ-Data, die visuelle RL-Methode TFQ-GRPO und das strukturierte Benchmark TFQ-Bench. Unsere vollständig quelloffene MetaphorStar-Familie, trainiert mit TFQ-GRPO auf TFQ-Data, verbessert die Leistung auf den Bildimplikations-Benchmarks durchschnittlich um 82,6%. Im Vergleich zu 20+ Mainstream-MLLMs erreicht MetaphorStar-32B State-of-the-Art (SOTA) bei Multiple-Choice-Fragen und Open-Style-Fragen und übertrifft das führende Closed-Source-Modell Gemini-3.0-pro bei True-False-Fragen signifikant. Entscheidend ist, dass unsere Experimente zeigen, dass das Erlernen von Bildimplikationsaufgaben das allgemeine Verständnisvermögen, insbesondere die komplexe visuelle Reasoning-Fähigkeit, verbessert. Wir liefern weiterhin eine systematische Analyse der Skalierung von Modellparametern, der Skalierung von Trainingsdaten sowie der Auswirkungen verschiedener Modellarchitekturen und Trainingsstrategien, was die breite Anwendbarkeit unserer Methode demonstriert. Wir haben alle Modellgewichte, Datensätze und Methodencodes unter https://metaphorstar.github.io quelloffen bereitgestellt.
Wir untersuchen budgetbeschränkte, werkzeuggestützte Agenten, bei denen ein großes Sprachmodell mehrstufige Aufgaben lösen muss, indem es externe Werkzeuge unter strikter monetärer Budgetbeschränkung aufruft. Wir formalisieren diese Umgebung als sequenzielle Entscheidungsfindung im Kontextraum mit kostenpflichtigen und stochastischen Werkzeugausführungen, was eine direkte Planung aufgrund massiver Zustands-Aktions-Räume, hoher Ergebnisvarianz und prohibitiv hoher Erkundungskosten undurchführbar macht. Um diese Herausforderungen zu bewältigen, schlagen wir INTENT vor, ein Planungsframework zur Inferenzzeit, das ein intentionsbewusstes hierarchisches Weltmodell nutzt, um zukünftige Werkzeugnutzung und risikokalibrierte Kosten vorherzusehen und Entscheidungen online zu steuern. Auf dem kostenmodifizierten StableToolBench erzwingt INTENT strikte Budgeteinhaltung und verbessert gleichzeitig die Aufgabenbewältigung erheblich gegenüber Baseline-Ansätzen. Zudem bleibt es robust unter dynamischen Marktveränderungen wie Werkzeugpreisänderungen und variierenden Budgets.
Großmaßstäbliches Visuelles Instruktions-Tuning (VIT) hat sich zu einem Schlüsselparadigma für die Verbesserung der Leistung von Vision-Language-Modellen (VLMs) bei verschiedenen multimodalen Aufgaben entwickelt. Die Verwendung großer Datensätze für das Training ist jedoch rechenintensiv und ineffizient aufgrund von Redundanzen in den Daten, was die Notwendigkeit multimodaler Datenauswahl zur Steigerung der Trainingseffizienz motiviert. Bestehende Datenauswahlmethoden für VIT erfordern entweder kostspieliges Training oder Gradientenberechnung. Trainingsfreie Alternativen basieren häufig auf Stellvertretermodellen oder -datensätzen, instruktionsagnostischen Repräsentationen und paarweisen Ähnlichkeitsvergleichen mit quadratischer Komplexität, was die Skalierbarkeit und Repräsentationsqualität einschränkt. In dieser Arbeit stellen wir ScalSelect vor, eine skalierbare, trainingsfreie multimodale Datenauswahlmethode mit linearer Zeitkomplexität in Bezug auf die Anzahl der Stichproben, die externe Modelle oder Hilfsdatensätze überflüssig macht. ScalSelect konstruiert zunächst Stichprobenrepräsentationen, indem visuelle Merkmale extrahiert werden, die von Instruktionstokens im Ziel-VLM am stärksten beachtet werden, und erfasst so instruktionsrelevante Informationen. Anschließend identifiziert es Stichproben, deren Repräsentationen den dominanten Unterraum der Gesamtdatensatzrepräsentationen am besten approximieren, was eine skalierbare Bedeutungsskorung ohne paarweise Vergleiche ermöglicht. Umfangreiche Experimente mit mehreren VLMs, Datensätzen und Auswahlbudgets zeigen, dass ScalSelect mit nur 16% der Daten über 97,5% der Leistung des Trainings mit dem vollständigen Datensatz erreicht und in einigen Konfigurationen sogar das Training mit allen Daten übertrifft. Der Code ist verfügbar unter https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist zentral für das Training moderner Reasoning-Modelle, doch nicht offengelegte Trainingsdaten werfen Bedenken hinsichtlich Benchmark-Kontamination auf. Im Gegensatz zu Pre-training-Methoden, die Modelle anhand von Token-Wahrscheinlichkeiten optimieren, feintunt RLVR Modelle auf der Grundlage von Belohnungsrückmeldungen aus selbstgenerierten Reasoning-Pfaden, was konventionelle, auf Likelihood basierende Erkennungsmethoden weniger effektiv macht. Wir zeigen, dass RLVR ein charakteristisches Verhaltensmuster induziert: Prompts, die während des RLVR-Trainings auftraten, führen zu rigideren und ähnlicheren Generationen, während ungesehene Prompts eine größere Diversität beibehalten. Wir führen Min-kNN-Distanz ein, einen einfachen Black-Box-Detektor, der diesen Kollaps quantifiziert, indem er mehrere Vervollständigungen für einen gegebenen Prompt sampelt und den Durchschnitt der k kleinsten nächster-Nachbar-Editierdistanzen berechnet. Min-kNN-Distanz erfordert weder Zugriff auf das Referenzmodell noch auf Token-Wahrscheinlichkeiten. Experimente mit verschiedenen RLVR-trainierten Reasoning-Modellen zeigen, dass Min-kNN-Distanz zuverlässig RL-gesehene Beispiele von ungesehenen unterscheidet und existierende Baseline-Methoden für Membership Inference und RL-Kontaminationserkennung übertrifft.
Embodied Navigation war lange Zeit durch aufgabenspezifische Architekturen fragmentiert. Wir stellen ABot-N0 vor, ein einheitliches Vision-Language-Action (VLA)-Foundation-Modell, das eine „Große Vereinheitlichung“ über fünf Kernaufgaben erreicht: Point-Goal, Object-Goal, Instruction-Following, POI-Goal und Person-Following. ABot-N0 nutzt eine hierarchische „Brain-Action“-Architektur, die einen LLM-basierten kognitiven „Cognitive Brain“ für semantisches Reasoning mit einem auf Flow Matching basierenden „Action Expert“ für die Erzeugung präziser, kontinuierlicher Trajektorien kombiniert. Um großskaliges Lernen zu ermöglichen, entwickelten wir die ABot-N0 Data Engine, die 16,9 Mio. Expertentrajektorien und 5,0 Mio. Reasoning-Samples in 7.802 hochauflösenden 3D-Szenen (10,7 km²) kuratiert. ABot-N0 erreicht neue State-of-the-Art-Leistungen in 7 Benchmarks und übertrifft spezialisierte Modelle deutlich. Darüber hinaus integriert unser Agentic Navigation System einen Planner mit hierarchischem topologischem Gedächtnis, das robuste, langfristige Missionen in dynamischen realen Umgebungen ermöglicht.
Die Erzeugung von Musikstems, also die Aufgabe, musikalisch synchronisierte und isolierte Instrumenten-Audioclips zu produzieren, bietet im Vergleich zu konventionellen Text-zu-Musik-Modellen das Potenzial für eine größere Benutzerkontrolle und eine bessere Anpassung an Musiker-Workflows. Bisherige Ansätze zur Stemerzeugung basieren jedoch entweder auf festen Architekturen, die einen vordefinierten Satz von Stems parallel ausgeben, oder erzeugen nur einen Stem gleichzeitig, was zu langsamer Inferenz führt, trotz der Flexibilität bei der Stemkombination. Wir schlagen Stemphonic vor, ein diffusions- und flow-basiertes Framework, das diesen Zielkonflikt überwindet und einen variablen Satz synchronisierter Stems in einem Inferenzdurchlauf erzeugt. Während des Trainings behandeln wir jeden Stem als ein Batchelement, gruppieren synchronisierte Stems in einem Batch und wenden einen gemeinsamen Rausch-Latentvektor auf jede Gruppe an. Zur Inferenzzeit verwenden wir einen gemeinsamen initialen Rausch-Latentvektor und stemspezifische Texteingaben, um synchronisierte Multi-Stem-Ausgaben in einem Durchlauf zu generieren. Wir erweitern unseren Ansatz weiter, um eine bedingte Multi-Stem-Generierung in einem Durchlauf und stemweise Aktivitätssteuerung zu ermöglichen, um Benutzer in die Lage zu versetzen, die zeitliche Schichtung eines Mixes iterativ zu erzeugen und zu orchestrieren. Wir benchmarken unsere Ergebnisse auf mehreren Open-Source-Stem-Evaluierungsdatensätzen und zeigen, dass Stemphonic qualitativ hochwertigere Ausgaben produziert und dabei den Gesamtmix-Generierungsprozess um 25 % bis 50 % beschleunigt. Demos unter: https://stemphonic-demo.vercel.app.
Der Kompromiss zwischen Interpretierbarkeit und Genauigkeit bleibt eine zentrale Herausforderung im maschinellen Lernen. Standardmäßige Generalisierte Additive Modelle (GAMs) bieten klare Merkmalszuordnungen, sind jedoch oft durch ihre streng additive Natur eingeschränkt, was die Vorhersageleistung beeinträchtigen kann. Die Einführung von Merkmalsinteraktionen kann die Genauigkeit steigern, kann jedoch die Beiträge einzelner Merkmale verschleiern. Um diese Probleme zu adressieren, schlagen wir Neuronale Additive Experten (NAEs) vor, einen neuartigen Rahmen, der Interpretierbarkeit und Genauigkeit nahtlos ausbalanciert. NAEs verwenden ein Mixture-of-Experts-Framework, das mehrere spezialisierte Netzwerke pro Merkmal lernt, während ein dynamischer Gating-Mechanismus Informationen über Merkmale hinweg integriert und dadurch starre additive Einschränkungen lockert. Darüber hinaus schlagen wir gezielte Regularisierungstechniken vor, um die Varianz zwischen Expertenvorhersagen zu reduzieren und so einen sanften Übergang von einem ausschließlich additiven Modell zu einem Modell zu ermöglichen, das komplexe Merkmalsinteraktionen erfasst und gleichzeitig die Klarheit der Merkmalszuordnungen beibehält. Unsere theoretische Analyse und Experimente mit synthetischen Daten veranschaulichen die Flexibilität des Modells, und umfangreiche Auswertungen auf realen Datensätzen bestätigen, dass NAEs eine optimale Balance zwischen Vorhersagegenauigkeit und transparenten, merkmalsspezifischen Erklärungen erreichen. Der Code ist verfügbar unter https://github.com/Teddy-XiongGZ/NAE.