papers.description
Trotz Fortschritten in der wissenschaftlichen KI fehlt es nach wie vor an einem kohärenten Rahmenwerk für Wissenschaftliche Allgemeine Intelligenz (Scientific General Intelligence, SGI) – der Fähigkeit, eigenständig Konzepte zu entwickeln, zu untersuchen und über wissenschaftliche Domänen hinweg zu schlussfolgern. Wir präsentieren eine operationale SGI-Definition, die auf dem Modell des praktischen Forschens (Practical Inquiry Model, PIM: Deliberation, Conception, Action, Perception) basiert, und operationalisieren diese durch vier auf Wissenschaftler ausgerichtete Aufgaben: tiefgehende Recherche, Ideengenerierung, Trocken-/Nassexperimente und experimentelles Reasoning. SGI-Bench umfasst über 1.000 expertengestützte, disziplinübergreifende Beispiele, inspiriert von den 125 großen Fragen der Wissenschaft, und ermöglicht eine systematische Evaluation modernster LLMs. Die Ergebnisse zeigen Defizite auf: eine geringe exakte Übereinstimmung (10–20 %) bei der tiefgehenden Recherche trotz Übereinstimmung auf Schrittebene; Ideen, denen es an Machbarkeit und Detailliertheit mangelt; hohe Code-Ausführbarkeit, aber geringe Genauigkeit der Ausführungsergebnisse bei Trockenexperimenten; geringe Sequenzgenauigkeit in Nassprotokollen; und anhaltende Herausforderungen im multimodalen Vergleichs-Reasoning. Wir führen zudem Test-Time Reinforcement Learning (TTRL) ein, das retrieval-verstärkte Neuheitsbelohnungen während der Inferenz optimiert und so die Neuartigkeit von Hypothesen ohne Referenzantworten verbessert. Zusammen legen unsere PIM-basierte Definition, der workflow-zentrierte Benchmark und die empirischen Erkenntnisse eine Grundlage für KI-Systeme, die sich tatsächlich an der wissenschaftlichen Entdeckung beteiligen.
Robotische Generalisierung beruht auf physikalischer Intelligenz: der Fähigkeit, Zustandsänderungen, kontaktreiche Interaktionen und langfristige Planung unter egozentrischer Wahrnehmung und Handlung zu verarbeiten. Die meisten VLMs werden jedoch primär mit Daten aus der Dritt-Person-Perspektive trainiert, was eine grundlegende Perspektiveninkongruenz für humanoide Roboter schafft. Die Skalierung der Erfassung roboteregozentrischer Daten bleibt aufgrund hoher Kosten und begrenzter Diversität unpraktikabel, während groß angelegte menschliche egocentrische Videos eine skalierbare Alternative bieten, die natürlicherweise reiche Interaktionskontexte und Kausalstrukturen erfassen. Die zentrale Herausforderung besteht darin, rohe egocentrische Videos in strukturierte und zuverlässige Verkörperungs-Trainingsannotationen umzuwandeln. Dementsprechend schlagen wir eine Egocentric2Embodiment-Übersetzungspipeline vor, die Egoperspektiv-Videos in mehrstufige, schema-gesteuerte VQA-Annotationen mit erzwungener Evidenzverankerung und zeitlicher Konsistenz transformiert. Dies ermöglicht die Erstellung des Egocentric2Embodiment-Datensatzes (E2E-3M) im großen Maßstab. Ein egocentrisch-bewusstes verkörpertes Gehirn, genannt PhysBrain, wird durch Training auf dem E2E-3M-Datensatz erzielt. PhysBrain zeigt ein deutlich verbessertes egocentrisches Verständnis, insbesondere für Planungsaufgaben in EgoThink. Es bietet eine egocentrisch-bewusste Initialisierung, die eine sample-effizientere VLA-Feinabstimmung und höhere Erfolgsraten in SimplerEnv (53,9%) ermöglicht, was einen effektiven Transfer von menschlicher egocentrischer Supervision hin zu nachgelagerter Robotersteuerung demonstriert.
Trotz der überlegenen Leistung von Large Reasoning Models (LRMs) sind ihre Denkprozesse oft kontraintuitiv, was zu suboptimalen Fähigkeiten führt. Um die gewünschten Denkprozesse theoretisch zu formalisieren, stellt dieses Papier die Laws of Reasoning (LoRe) vor, einen einheitlichen Rahmen, der intrinsische Denkmuster in LRMs charakterisiert. Wir schlagen zunächst ein Compute-Gesetz vor, basierend auf der Hypothese, dass der Rechenaufwand für das Denken linear mit der Fragekomplexität skalieren sollte. Darüber hinaus erweitern wir LoRe um ein ergänzendes Genauigkeitsgesetz. Da die Fragekomplexität in der Praxis schwer zu quantifizieren ist, überprüfen wir diese Hypothesen anhand zweier Eigenschaften der Gesetze: Monotonie und Kompositionalität. Daher führen wir LoRe-Bench ein, einen Benchmark, der diese beiden handhabbaren Eigenschaften für große Reasoning-Modelle systematisch misst. Die Auswertung zeigt, dass die meisten Reasoning-Modelle eine angemessene Monotonie aufweisen, aber an Kompositionalität mangelt es ihnen. Als Lösung entwickeln wir einen effektiven Finetuning-Ansatz, der die Kompositionalität des Compute-Gesetzes durchsetzt. Umfangreiche empirische Studien belegen, dass eine bessere Einhaltung der Compute-Gesetze zu konsistent verbesserten Reasoning-Leistungen auf mehreren Benchmarks führt und synergetische Effekte zwischen Eigenschaften und Gesetzen aufdeckt. Projektseite: https://lore-project.github.io/
Große Sprachmodelle haben kürzlich bedeutende Fortschritte bei der Generierung rigoroser mathematischer Beweise erzielt. Im Gegensatz dazu bleibt der Einsatz von LLMs für Theorembeweise in formalen Sprachen (wie Lean) herausfordernd und rechenintensiv, insbesondere bei Problemen auf Undergraduate-Niveau und darüber hinaus. In dieser Arbeit stellen wir Seed-Prover 1.5 vor, ein formales Theorembeweis-Modell, das durch groß angelegtes agentenbasiertes Verstärkungslernen trainiert wurde, zusammen mit einem effizienten Test-Time-Scaling (TTS)-Workflow. Durch umfangreiche Interaktionen mit Lean und anderen Werkzeugen sammelt das Modell während des RL-Prozesses kontinuierlich Erfahrungen, was die Fähigkeiten und die Effizienz des formalen Theorembeweisens erheblich steigert. Darüber hinaus überbrückt unser TTS-Workflow durch die Nutzung jüngster Fortschritte beim natürlichem Sprachbeweis effizient die Lücke zwischen natürlichen und formalen Sprachen. Im Vergleich zu state-of-the-art-Methoden erzielt Seed-Prover 1.5 eine überlegene Leistung mit einem geringeren Rechenbudget. Es löst 88 % der PutnamBench- (Undergraduate-Niveau), 80 % der Fate-H- (Graduate-Niveau) und 33 % der Fate-X- (PhD-Niveau) Probleme. Bemerkenswerterweise lösten wir mit unserem System 11 von 12 Problemen des Putnam-Wettbewerbs 2025 innerhalb von 9 Stunden. Unsere Ergebnisse deuten darauf hin, dass die Skalierung des Lernens aus Erfahrung, getrieben durch hochwertiges formales Feedback, immenses Potenzial für die Zukunft des formalen mathematischen Denkens birgt.
Moderne Latent Diffusion Models (LDMs) operieren typischerweise in latenten Räumen von Variational Autoencodern (VAEs) auf niedriger Ebene, die primär für eine Pixel-für-Pixel-Rekonstruktion optimiert sind. Um Bildgenerierung und Bildverständnis zu vereinheitlichen, zeichnet sich ein neuer Trend ab, hochdimensionale Merkmale von Repräsentations-Encodern als generative Latents zu verwenden. Wir identifizieren jedoch empirisch zwei grundlegende Hindernisse in diesem Paradigma: (1) Dem diskriminativen Merkmalsraum mangelt es an kompakter Regularisierung, was dazu führt, dass Diffusionsmodelle anfällig für Latents außerhalb der Mannigfaltigkeit sind, die zu ungenauen Objektstrukturen führen; und (2) Die inhärent schwache Pixel-rekonstruktion des Encoders behindert den Generator beim Erlernen präziser, feingranularer Geometrie und Textur. In diesem Artikel schlagen wir einen systematischen Rahmen vor, um verständnisorientierte Encoder-Merkmale für generative Aufgaben anzupassen. Wir führen ein semantisch-pixelbezogenes Rekonstruktionsziel ein, um den latenten Raum zu regularisieren und so sowohl semantische Informationen als auch feingranulare Details in einer hochkompakten Repräsentation (96 Kanäle mit 16x16 räumlicher Unterabtastung) zu komprimieren. Dieses Design stellt sicher, dass der latente Raum semantisch reichhaltig bleibt und eine state-of-the-art Bildrekonstruktion erreicht, während er kompakt genug für eine präzise Generierung bleibt. Aufbauend auf dieser Repräsentation entwerfen wir ein einheitliches Text-zu-Bild (T2I) und Bildbearbeitungsmodell. Durch einen Vergleich mit verschiedenen Merkmalsräumen zeigen wir, dass unser Ansatz eine state-of-the-art Rekonstruktion, schnellere Konvergenz und erhebliche Leistungssteigerungen sowohl in T2I- als auch in Bearbeitungsaufgaben erreicht. Dies validiert, dass Repräsentations-Encoder effektiv zu robusten generativen Komponenten adaptiert werden können.
Trotz Fortschritten bei multimodalen LLMs (MLLMs) bleibt ihre Fähigkeit, über 3D-Strukturen und zeitliche Dynamiken zu schlussfolgern, eingeschränkt – bedingt durch schwache 4D-Wahrnehmung und temporales Verständnis. Bestehende 3D- und 4D-Video Question Answering (VQA) Benchmarks konzentrieren sich zudem auf statische Szenen und weisen keine Regions-basierten Prompts auf. Wir adressieren diese Probleme durch die Einführung von: (a) 4D-RGPT, einem spezialisierten MLLM zur Erfassung von 4D-Repräsentationen aus Videoeingaben mit verbesserter temporaler Wahrnehmung; (b) Perceptual 4D Distillation (P4D), einem Trainingsframework, das 4D-Repräsentationen eines eingefrorenen Expertennetzes in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; und (c) R4D-Bench, einem Benchmark für tiefenbewusste dynamische Szenen mit Regions-basierten Prompts, der durch eine hybride, automatisierte und human-validierte Pipeline erstellt wurde. Unser 4D-RGPT erzielt signifikante Verbesserungen sowohl auf bestehenden 4D-VQA-Benchmarks als auch auf dem vorgeschlagenen R4D-Bench-Benchmark.
LLM-as-a-Judge hat sich als Evaluierungsmethode weitgehend durchgesetzt und dient als überwachte Belohnung im Modelltraining. Bisherige Benchmarks für LLM-as-a-Judge stützen sich jedoch hauptsächlich auf menschlich annotierte Ground-Truth-Daten, was menschliche Verzerrungen einbringt, die die Bewertung der Zuverlässigkeit beeinträchtigen und Skalierbarkeitsbeschränkungen auferlegen. Um diese Grenzen zu überwinden, stellen wir Sage vor, eine neuartige Evaluierungssuite, die die Qualität von LLM-Jurys bewertet, ohne menschliche Annotationen zu benötigen. Inspiriert durch Axiome der Rational-Choice-Theorie führt Sage zwei neue Betrachtungsebenen zur Messung von LLM-as-a-Judge ein: lokale Selbstkonsistenz (Stabilität paarweiser Präferenzen) und globale logische Konsistenz (Transitivität über einen vollständigen Satz von Präferenzen). Wir haben einen Datensatz von 650 Fragen kuratiert, indem wir strukturierte Benchmark-Probleme mit realen Nutzeranfragen kombiniert haben. Unsere Experimente zeigen sowohl die Stabilität unserer Metriken als auch ihre hohe Korrelation mit überwachten Benchmarks wie LLMBar und RewardBench2, was die Zuverlässigkeit von Sage als Evaluierungssuite für die Robustheit und Genauigkeit von LLM-as-a-Judge bestätigt. Auf Basis von Sage zeigen wir, dass aktuelle state-of-the-art-LLMs erhebliche Zuverlässigkeitsprobleme aufweisen, wenn sie als Jurys in sowohl Bewertungs- als auch paarweisen Settings agieren; selbst die leistungsstärksten Modelle, Gemini-2.5-Pro und GPT-5, können in fast einem Viertel der schwierigen Fälle keine konsistenten Präferenzen aufrechterhalten. Wir führen dies auf ein neues Phänomen zurück, das wir als situative Präferenz bezeichnen, welches erklärt, warum explizite Bewertungsraster oder Kriterien dem Modell helfen können, konsistent über Antwortpaare hinweg zu urteilen. Unsere weitere Analyse zeigt, dass finetuning von LLM-as-a-Judge eine praktikable Methode zur Leistungssteigerung ist und dass sowohl panel-basierte Jurys als auch tiefgehende Schlussfolgerungen die Urteilskonsistenz verbessern können. Wir stellen zudem erhebliche Inkonsistenzen in menschlichen Urteilen fest, was darauf hindeutet, dass menschliche Annotationen möglicherweise keinen verlässlichen Goldstandard darstellen.
Wir stellen RadarGen vor, ein Diffusionsmodell zur Synthese realistischer automobiler Radar-Punktwolken aus Multi-View-Kamerabildern. RadarGen adaptiert effiziente Bild-Latent-Diffusion für den Radarbereich, indem es Radarmessungen in einer Draufsichtdarstellung abbildet, die die räumliche Struktur zusammen mit Radarquerschnitt (RCS) und Doppler-Attributen kodiert. Ein leichtgewichtiger Rekonstruktionsschritt stellt die Punktwolken aus den generierten Karten wieder her. Um die Generierung besser mit der visuellen Szene abzustimmen, integriert RadarGen aus vortrainierten Foundation-Modellen extrahierte, draufsichtausgerichtete Tiefen-, Semantik- und Bewegungsinformationen, die den stochastischen Generierungsprozess in Richtung physikalisch plausibler Radarmuster lenken. Die Konditionierung auf Kamerabilder macht den Ansatz grundsätzlich breit kompatibel mit bestehenden visuellen Datensätzen und Simulationsframeworks und eröffnet so eine skalierbare Richtung für multimodale generative Simulation. Evaluationen auf umfangreichen Fahrdaten zeigen, dass RadarGen charakteristische Radarmessverteilungen erfasst und die Lücke zu auf Real-Daten trainierten Wahrnehmungsmodellen verringert, was einen Schritt in Richtung einer vereinheitlichten generativen Simulation über Sensormodalitäten hinweg darstellt.
Visuelles Grounding, das Lokalisieren von Objekten anhand natürlicher Sprachbeschreibungen, stellt eine entscheidende Brücke zwischen Sprach- und Bildverständnis dar. Während multimodale große Sprachmodelle (MLLMs) beeindruckende Ergebnisse auf bestehenden Benchmarks erzielen, bleibt eine grundlegende Frage offen: Können MLLMs Sprache wirklich auf menschenähnliche Weise visuell verankern oder betreiben sie lediglich Mustererkennung auf vereinfachten Datensätzen? Aktuelle Benchmarks erfassen nicht die Komplexität der realen Welt, in der Menschen mühelos mit mehrdeutigen Referenzen umgehen und erkennen, wenn eine Verankerung unmöglich ist. Um die wahren Fähigkeiten von MLLMs rigoros zu bewerten, stellen wir GroundingME vor, einen Benchmark, der Modelle systematisch in vier kritischen Dimensionen herausfordert: (1) Diskriminativ – Unterscheidung stark ähnlicher Objekte, (2) Räumlich – Verstehen komplexer relationaler Beschreibungen, (3) Limitiert – Umgang mit Verdeckungen oder winzigen Objekten und (4) Ablehnung – Erkennen von nicht verankerbaren Anfragen. Durch sorgfältige Kuratierung, die automatische Generierung mit menschlicher Verifikation kombiniert, schaffen wir 1.005 anspruchsvolle Beispiele, die die reale Komplexität widerspiegeln. Die Evaluation von 25 state-of-the-art MLLMs offenbart eine tiefe Fähigkeitslücke: Das beste Modell erreicht nur 45,1 % Genauigkeit, während die meisten bei Ablehnungsaufgaben 0 % erzielen und reflexiv Objekte halluzinieren, anstatt deren Abwesenheit einzuräumen – was ernste Sicherheitsbedenken für den Einsatz aufwirft. Wir untersuchen zwei Verbesserungsstrategien: (1) Test-Time-Scaling wählt die optimale Antwort durch Denk-Trajektorien aus und verbessert komplexes Grounding um bis zu 2,9 %, und (2) Data-Mixture-Training lehrt Modelle, nicht verankerbare Anfragen zu erkennen, und steigert die Ablehnungsgenauigkeit von 0 % auf 27,9 %. GroundingME dient somit sowohl als Diagnosewerkzeug, das aktuelle Grenzen von MLLMs aufzeigt, als auch als Fahrplan hin zu menschenähnlichem visuellen Grounding.
Das Verständnis architektonischer Unterschiede bei Sprachmodellen ist eine Herausforderung, insbesondere im akademischen Maßstab des Vortrainings (z.B. 1,3 Mrd. Parameter, 100 Mrd. Token), wo Ergebnisse oft von Rauschen und Zufälligkeit dominiert werden. Um dies zu überwinden, führen wir kontrollierte, synthetische Vortrainingsaufgaben ein, die grundlegende Modellfähigkeiten isolieren und bewerten. Innerhalb dieses Rahmens entdecken wir CANON LAYERS: leichtgewichtige architektonische Komponenten – benannt nach dem musikalischen Begriff "Kanon" –, die den horizontalen Informationsfluss zwischen benachbarten Token fördern. Canon-Layer berechnen gewichtete Summen benachbarter Token-Repräsentationen und lassen sich nahtlos in Transformer-, Linear-Attention-, State-Space-Modelle oder jede Sequenzarchitektur integrieren. Wir präsentieren 12 zentrale Ergebnisse. Dazu gehört, wie Canon-Layers die Denktiefe (z.B. um das 2-fache), die Denkbreite, die Wissensmanipulation usw. verbessern. Sie befähigen schwache Architekturen wie NoPE, mit RoPE gleichzuziehen, und Linear-Attention-Modelle, mit state-of-the-art linearen Modellen wie Mamba2/GDN zu konkurrieren – validiert sowohl durch synthetische Aufgaben als auch durch reales Vortraining im akademischen Maßstab. Dieser synthetische Experimentierraum bietet einen wirtschaftlichen, prinzipienbasierten Weg, um grundlegende Modellfähigkeiten zu isolieren, die in akademischen Maßstäben oft verborgen bleiben. Ausgestattet mit unbegrenzten hochwertigen Daten, könnte er sogar VORHERSAGEN, wie sich zukünftige Architekturen verhalten werden, wenn sich Trainingspipelines verbessern – z.B. durch bessere Datenkuratierung oder RL-basiertes Post-Training – und so tieferes Schließen und hierarchisches Inferieren freisetzen.
Vision-Language-Action (VLA)-Modelle treiben eine Revolution in der Robotik voran, indem sie Maschinen befähigen, Anweisungen zu verstehen und mit der physischen Welt zu interagieren. Dieses Forschungsfeld explodiert geradezu mit neuen Modellen und Datensätzen, was es sowohl spannend als auch herausfordernd macht, den Überblick zu behalten. Dieser Übersichtsartikel bietet einen klaren und strukturierten Leitfaden durch die VLA-Landschaft. Wir haben ihn entlang des natürlichen Lernwegs eines Forschers konzipiert: Wir beginnen mit den grundlegenden Modulen jedes VLA-Modells, zeichnen die Geschichte anhand wichtiger Meilensteine nach und tauchen dann tief in die zentralen Herausforderungen ein, die die aktuelle Forschungsfront definieren. Unser Hauptbeitrag ist eine detaillierte Aufschlüsselung der fünf größten Herausforderungen in den Bereichen: (1) Repräsentation, (2) Ausführung, (3) Generalisierung, (4) Sicherheit und (5) Datensätze und Evaluation. Diese Struktur spiegelt den Entwicklungsfahrplan eines generalistischen Agenten wider: Etablierung der fundamentalen Wahrnehmungs-Handlungs-Schleife, Skalierung der Fähigkeiten über verschiedene Verkörperungen und Umgebungen hinweg und schließlich die Gewährleistung eines vertrauenswürdigen Einsatzes – alles unterstützt durch die essentielle Dateninfrastruktur. Für jede dieser Herausforderungen geben wir einen Überblick über bestehende Ansätze und zeigen zukünftige Chancen auf. Wir positionieren dieses Papier sowohl als grundlegenden Leitfaden für Neueinsteiger als auch als strategischen Fahrplan für erfahrene Forscher, mit dem doppelten Ziel, das Lernen zu beschleunigen und neue Ideen in der embodied intelligence zu inspirieren. Eine lebende Version dieses Übersichtsartikels mit kontinuierlichen Aktualisierungen wird auf unserer Projektseite unter https://suyuz1.github.io/Survery/{project page} gepflegt.
Verstärkendes Lernen (RL) hat sich erneut als natürlicher Ansatz für das Training interaktiver LLM-Agenten in realen Umgebungen erwiesen. Die direkte Anwendung des weit verbreiteten Group Relative Policy Optimization (GRPO)-Algorithmus auf mehrstufige Aufgaben zeigt jedoch bemerkenswerte Einschränkungen, insbesondere in Szenarien, die langfristiges Planungsvermögen erfordern. Um diese Herausforderungen zu bewältigen, untersuchen wir stabilere und effektivere Strategien zur Schätzung des Vorteilswerts, speziell für Mehrschritt-Settings. Wir untersuchen zunächst Proximal Policy Optimization (PPO) als Alternative und stellen fest, dass es robuster als GRPO ist. Um PPO in Mehrschritt-Szenarien weiter zu verbessern, führen wir turn-PPO ein, eine Variante, die auf einer zug-basierten MDP-Formulierung operiert, im Gegensatz zur häufig verwendeten token-basierten MDP-Formulierung. Unsere Ergebnisse auf den WebShop- und Sokoban-Datensätzen demonstrieren die Wirksamkeit von turn-PPO, sowohl mit als auch ohne langkettige Reasoning-Komponenten.
Große Videosprachmodelle (Video-LLMs) verbessern sich rapide, doch aktuelle Benchmarks für Videofragebeantwortung (VideoQA) erlauben es oft, dass Fragen anhand eines einzigen salienten Hinweises beantwortet werden können. Dadurch wird das erforderliche Schlussfolgern, das multiple, zeitlich getrennte visuelle Evidenzen aggregieren muss, unzureichend getestet. Wir stellen HERBench vor, einen VideoQA-Benchmark, der gezielt entwickelt wurde, um die Integration von Multi-Evidenz über die Zeit hinweg zu bewerten. Jede Frage erfordert die Aggregation von mindestens drei sich nicht überlappenden evidenziellen Hinweisen über verschiedene Videosegmente hinweg, sodass weder Sprach-Prior-Wissen noch eine einzelne Momentaufnahme ausreichen. HERBench umfasst 26.000 Multiple-Choice-Fragen mit fünf Antwortmöglichkeiten, die in zwölf kompositionelle Aufgaben unterteilt sind. Diese untersuchen Identitätsbindung, Entitätsübergreifende Relationen, Temporale Ordnung, Kookkurrenzverifikation und Zählen. Um den Evidenzbedarf messbar zu machen, führen wir den "Minimum Required Frame-Set" (MRFS) ein – die minimale Anzahl an Frames, die ein Modell fusionieren muss, um korrekt zu antworten. Wir zeigen, dass HERBench einen deutlich höheren Bedarf erfordert als bisherige Datensätze (durchschnittlicher MRFS 5.5 vs. 2.6-4.2). Die Evaluierung von 13 state-of-the-art Video-LLMs mit HERBench zeigt durchgängige Defizite: Genauigkeiten von 31–42 % liegen nur knapp über der 20 %-Zufallsrate. Wir zerlegen dieses Versagen in zwei kritische Engpässe: 1) ein Retrieval-Defizit, bei dem Frame-Selektoren Schlüsselevidenz übersehen, und 2) ein Fusionsdefizit, bei dem Modelle scheitern, Informationen zu integrieren, selbst wenn alle notwendigen Evidenzen bereitgestellt werden. Indem HERBench evidenzübergreifendes Schlussfolgern über die Zeit sowohl unvermeidbar als auch quantifizierbar macht, etabliert es ein fundiertes Ziel für die Entwicklung eines robusten, kompositionellen Videoverständnisses.
Jüngste Fortschritte bei Weltmodellen haben die interaktive Umgebungssimulation erheblich verbessert. Bestehende Methoden lassen sich hauptsächlich in zwei Kategorien einteilen: (1) statische Weltgenerierungsmodelle, die 3D-Umgebungen ohne aktive Agenten konstruieren, und (2) Modelle mit steuerbaren Entitäten, die einer einzelnen Entität begrenzte Aktionen in einer ansonsten unsteuerbaren Umgebung ermöglichen. In dieser Arbeit stellen wir AniX vor, das den Realismus und die strukturelle Fundierung der statischen Weltgenerierung nutzt und gleichzeitig Modelle mit steuerbaren Entitäten erweitert, um benutzerdefinierte Charaktere zu unterstützen, die offene Handlungen ausführen können. Benutzer können eine 3DGS-Szene und einen Charakter bereitstellen und diesen dann durch natürliche Sprache anleiten, um diverse Verhaltensweisen von grundlegender Fortbewegung bis hin zu objektzentrierten Interaktionen auszuführen, während die Umgebung frei erkundet wird. AniX synthetisiert zeitlich kohärente Videoclips, die die visuelle Qualität der bereitgestellten Szene und des Charakters bewahren, formuliert als ein Problem der bedingten autoregressiven Videogenerierung. Aufbauend auf einem vortrainierten Videogenerator verbessert unsere Trainingsstrategie die Bewegungsdynamik erheblich und bewahrt gleichzeitig die Generalisierbarkeit über Aktionen und Charaktere hinweg. Unsere Evaluation umfasst eine breite Palette von Aspekten, einschließlich visueller Qualität, Charakterkonsistenz, Aktionssteuerbarkeit und Langzeitkohärenz.
Wir stellen Bolmo vor, die erste Familie wettbewerbsfähiger, vollständig offener Byte-Level-Sprachmodelle (LMs) im Maßstab von 1B und 7B Parametern. Im Gegensatz zu früheren Forschungsarbeiten zu Byte-Level-LMs, die sich vorwiegend auf Training von Grund auf konzentrieren, trainieren wir Bolmo durch "Byteifizierung" bestehender Subword-Level-LMs. Die Byteifizierung ermöglicht es, die Grenzen der Subword-Tokenisierung – wie unzureichendes Zeichenverständnis und Effizienzbeschränkungen durch das feste Subword-Vokabular – zu überwinden, während eine Leistung auf dem Niveau führender Subword-Level-LMs erzielt wird. Bolmo ist speziell für die Byteifizierung konzipiert: Unsere Architektur löst eine Diskrepanz zwischen der Ausdrucksstärke früherer Byte-Level-Architekturen und Subword-Level-LMs, was den Einsatz eines effektiven exakten Distillationsziels zwischen Bolmo und dem Quell-Subword-Modell ermöglicht. Dies erlaubt die Konvertierung eines Subword-Level-LMs in ein Byte-Level-LM mit einem Aufwand von weniger als 1 % eines typischen Vor-Trainings-Token-Budgets. Bolmo übertrifft alle früheren Byte-Level-LMs vergleichbarer Größe erheblich und übertrifft die Quell-Subword-Level-LMs im Zeichenverständnis und teilweise auch bei Coding-Aufgaben, während es auf anderen Aufgaben die Leistung der ursprünglichen LMs nahezu erreicht. Darüber hinaus zeigen wir, dass Bolmo durch Training mit höheren Token-Kompressionsraten Inferenzgeschwindigkeiten erreichen kann, die mit Subword-Level-LMs wettbewerbsfähig sind, und dass es kostengünstig und effektiv nachtrainiert werden kann, indem das bestehende Ökosystem rund um das Quell-Subword-LM genutzt wird. Unsere Ergebnisse machen Byte-Level-LMs endlich zu einer praktischen Alternative, die mit Subword-Level-LMs über eine breite Palette von Anwendungsfällen wettbewerbsfähig ist.
Benchmarks wie SWE-bench haben die Evaluierung von Large Language Models (LLMs) für repository-weite Softwareentwicklungsaufgaben standardisiert. Diese Bemühungen bleiben jedoch durch manuelle Kuratierung, statische Datensätze und einen Fokus auf Python-basierte Fehlerbehebungen eingeschränkt. Wir stellen SWE-Bench++ vor, einen automatisierten Framework, der repository-weite Programmieraufgaben aus Open-Source-GitHub-Projekten generiert. Im Gegensatz zu synthetischen Ansätzen erntet unsere Pipeline aktive Pull Requests, um sowohl Fehlerbehebungen als auch Funktionsanfragen in 11 Programmiersprachen abzudecken. SWE-Bench++ verwandelt GitHub-Pull-Requests (PRs) durch vier Stufen in reproduzierbare, ausführungsbasierte Aufgaben: programmatische Beschaffung, Umgebungssynthese, Extraktion von Testorakeln und Qualitätssicherung. Ein abschließender Schritt zur hinweisgestützten Trajektoriensynthese konvertiert Instanzen, an denen starke Modelle scheitern, in Trainingsverläufe. Unser initialer Benchmark besteht aus 11.133 Instanzen aus 3.971 Repositories in 11 Sprachen. Bei einer Teilmenge von 1.782 Instanzen dieses Benchmarks erzielen die derzeit stärksten Modelle folgende Ergebnisse: claude-sonnet-4.5 erreicht 36,20 % pass@10, gpt-5-2025-08-07 34,57 %, gemini/gemini-2.5-pro 24,92 % und gpt-4o 16,89 %. Wir demonstrieren weiterhin den Nutzen unseres Datensatzes, indem wir zeigen, dass Fine-Tuning auf SWE-Bench++-Instanzen messbare Verbesserungen im SWE-bench Multilingual Benchmark bewirkt. SWE-Bench++ bietet einen skalierbaren, mehrsprachigen Benchmark zur Evaluierung und Verbesserung repository-weiter Codegenerierung.
Reinforcement Learning (RL) hat es ermöglicht, große Sprachmodell-Agenten (LLM) so zu trainieren, dass sie mit der Umgebung interagieren und mehrstufige Aufgaben mit langem Planungshorizont lösen können. Allerdings haben RL-trainierte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sie scheitern daran, sich effizient aus Trial-and-Error-Erfahrungen anzupassen. In diesem Artikel stellen wir LaMer vor, einen allgemeinen Meta-RL-Rahmen, der es LLM-Agenten ermöglicht, aktiv zu explorieren und aus der Umgebungsrückmeldung zur Testzeit zu lernen. LaMer besteht aus zwei Schlüsselkomponenten: (i) einem episodenübergreifenden Trainingsrahmen, um Exploration und die Optimierung langfristiger Belohnungen zu fördern; und (ii) einer kontextuellen Politikadaptation durch Reflexion, die es dem Agenten ermöglicht, seine Strategie anhand von Aufgabenrückmeldungen ohne Gradientenupdate anzupassen. Experimente in verschiedenen Umgebungen zeigen, dass LaMer die Leistung im Vergleich zu RL-Baselines signifikant verbessert, mit Leistungssteigerungen von 11 %, 14 % bzw. 19 % bei Sokoban, MineSweeper und Webshop. Darüber hinaus zeigt LaMer im Vergleich zu RL-trainierten Agenten auch eine bessere Generalisierungsfähigkeit für anspruchsvollere oder zuvor unbekannte Aufgaben. Insgesamt demonstrieren unsere Ergebnisse, dass Meta-RL einen prinzipiellen Ansatz bietet, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Explorationsstrategien zu ermöglichen.
Visuelles Autoregressives (VAR) Modellierung weicht vom Next-Token-Predictions-Paradigma traditioneller Autoregressiver (AR) Modelle ab, indem es Next-Scale-Prediction verwendet und so hochwertige Bildgenerierung ermöglicht. Allerdings leidet das VAR-Paradigma unter stark erhöhter Rechenkomplexität und Laufzeit bei großen Skalenstufen. Obwohl bestehende Beschleunigungsmethoden die Laufzeit für große Skalenstufen reduzieren, basieren sie auf manueller Stufenauswahl und übersehen die unterschiedliche Bedeutung verschiedener Phasen im Generierungsprozess. Um diese Herausforderung zu bewältigen, präsentieren wir StageVAR, eine systematische Untersuchung und ein phasenbewusstes Beschleunigungsframework für VAR-Modelle. Unsere Analyse zeigt, dass frühe Schritte entscheidend für die Bewahrung semantischer und struktureller Konsistenz sind und unverändert bleiben sollten, während spätere Schritte hauptsächlich Details verfeinern und zur Beschleunigung beschnitten oder angenähert werden können. Aufbauend auf diesen Erkenntnissen führt StageVAR eine Plug-and-Play-Beschleunigungsstrategie ein, die semantische Irrelevanz und Low-Rank-Eigenschaften in Berechnungen der Spätphase ausnutzt, ohne zusätzliches Training zu erfordern. Unser vorgeschlagenes StageVAR erreicht eine bis zu 3,4-fache Beschleunigung bei nur einem Abfall von 0,01 auf GenEval und einer Verringerung von 0,26 auf DPG und übertrifft dabei konsistent bestehende Beschleunigungs-Baselines. Diese Ergebnisse unterstreichen das phasenbewusste Design als ein leistungsstarkes Prinzip für effiziente visuelle autoregressive Bildgenerierung.
Multimodale Large Language Models weisen bei extremen visuellen Verschlechterungen in realen Szenarien Schwierigkeiten auf, eine zuverlässige Leistung aufrechtzuerhalten, was ihre praktische Robustheit beeinträchtigt. Bestehende robuste MLLMs stützen sich überwiegend auf implizites Training/Adaptierung, das sich ausschließlich auf die Generalisierung des visuellen Encoders konzentriert, was zu begrenzter Interpretierbarkeit und isolierter Optimierung führt. Um diese Einschränkungen zu überwinden, schlagen wir Robust-R1 vor, einen neuartigen Rahmen, der visuelle Verschlechterungen explizit durch strukturierte Reasoning-Ketten modelliert. Unser Ansatz integriert: (i) überwachtes Fine-Tuning für verschlechterungsbewusste Reasoning-Grundlagen, (ii) belohnungsgesteuerte Ausrichtung zur präzisen Wahrnehmung von Verschlechterungsparametern und (iii) dynamische Skalierung der Reasoning-Tiefe, die an die Verschlechterungsintensität angepasst ist. Um diesen Ansatz zu ermöglichen, führen wir einen spezialisierten 11K-Datensatz ein, der realistische Verschlechterungen umfasst, die über vier kritische visuelle Verarbeitungsstufen der realen Welt synthetisiert wurden, jeweils annotiert mit strukturierten Ketten, die Verschlechterungsparameter, perzeptuellen Einfluss, ursprüngliche semantische Reasoning-Kette und Schlussfolgerung verbinden. Umfassende Evaluierungen demonstrieren state-of-the-art Robustheit: Robust-R1 übertrifft alle allgemeinen und robusten Baseline-Modelle auf dem Real-World-Verschlechterungsbenchmark R-Bench und behält gleichzeitig eine überlegene Anti-Degradation-Leistung unter mehrstufigen adversarischen Verschlechterungen auf MMMB, MMStar und RealWorldQA bei.
Aktuelle Fortschritte in der 3D-Szenengenerierung erzeugen visuell ansprechende Ergebnisse, doch bestehende Repräsentationen behindern die Arbeitsabläufe von Künstlern, die modifizierbare 3D-Texturmesh-Szenen für visuelle Effekte und Spieleentwicklung benötigen. Trotz bedeutender Verbesserungen sind aktuelle Methoden zur Rekonstruktion texturierter Mesh-Szenen noch nicht einsatzbereit für Künstler, da sie unter falscher Objektzerlegung, ungenauen räumlichen Beziehungen und fehlenden Hintergründen leiden. Wir stellen 3D-RE-GEN vor, ein kompositionelles Framework, das ein einzelnes Bild in texturierte 3D-Objekte und einen Hintergrund rekonstruiert. Wir zeigen, dass die Kombination modernster Modelle aus spezifischen Domänen state-of-the-art Leistung in der Szenenrekonstruktion erreicht und dabei die Anforderungen von Künstlern adressiert. Unsere Rekonstruktionspipeline integriert Modelle für Asset-Erkennung, Rekonstruktion und Platzierung, wobei bestimmte Modelle über ihre ursprünglich intendierten Domänen hinaus eingesetzt werden. Die Erfassung verdeckter Objekte wird als Bildbearbeitungsaufgabe mit generativen Modellen behandelt, um unter Berücksichtigung der Szenenebene bei konsistenter Beleuchtung und Geometrie Rückschlüsse zu ziehen und zu rekonstruieren. Im Gegensatz zu aktuellen Methoden generiert 3D-RE-GEN einen umfassenden Hintergrund, der Objekte während der Optimierung räumlich einschränkt und eine Grundlage für realistische Beleuchtungs- und Simulationsaufgaben in visuellen Effekten und Spielen schafft. Um physikalisch plausible Anordnungen zu erhalten, setzen wir eine neuartige 4-DoF-differenzierbare Optimierung ein, die rekonstruierte Objekte mit der geschätzten Bodenebene ausrichtet. 3D-RE-GEN erzielt state-of-the-art Leistung in der 3D-Szenenrekonstruktion aus Einzelbildern und erzeugt durch kompositionelle Generierung, geleitet von präziser Kameraermittlung und räumlicher Optimierung, kohärente, modifizierbare Szenen.
Das langfristige multimodale Videoverständnis erfordert die Integration von visuellen, sprachlichen und Umgebungsaudioinformationen mit kohärenter Langzeitreasoning. Bestehende Benchmarks betonen entweder die temporale Länge oder die multimodale Vielfalt, aber selten beides. Während einige offene Fragen und fortschrittliche Metriken einbeziehen, verlassen sie sich meist auf Einzelwert-Genauigkeit, was Fehlermodi verschleiert. Wir stellen LongShOTBench vor, einen diagnostischen Benchmark mit offenen, intentionsgesteuerten Fragen; Einzel- und Mehrfachdialoge; sowie Aufgaben, die multimodales Reasoning und agentenbasierte Werkzeugnutzung über Video, Audio und Sprache hinweg erfordern. Jeder Eintrag enthält eine Referenzantwort und ein abgestuftes Bewertungsschema für interpretierbare und nachvollziehbare Evaluation. LongShOTBench wird durch eine skalierbare, humanvalidierte Pipeline erstellt, um Abdeckung und Reproduzierbarkeit zu gewährleisten. Alle Proben in unserem LongShOTBench sind humanverifiziert und korrigiert. Darüber hinaus präsentieren wir LongShOTAgent, ein agentenbasiertes System, das lange Videos durch Vorverarbeitung, Suche und iterative Verfeinerung analysiert. Auf LongShOTBench zeigen state-of-the-art MLLMs große Lücken: Gemini-2.5-Flash erreicht 52,95%, Open-Source-Modelle bleiben unter 30% und LongShOTAgent erzielt 44,66%. Diese Ergebnisse unterstreichen die Schwierigkeit des langfristigen Videoverständnisses in der realen Welt. LongShOTBench bietet eine praktische, reproduzierbare Grundlage für die Evaluation und Verbesserung von MLLMs. Alle Ressourcen sind auf GitHub verfügbar: https://github.com/mbzuai-oryx/longshot.
Text-to-Image (TTI)-Modelle generieren Bilder auf der Grundlage von Textprompts, die oft bestimmte Aspekte des gewünschten Bildes unklar lassen. Bei solchen Unklarheiten hat sich gezeigt, dass TTI-Modelle bei ihren Interpretationen Verzerrungen (Biases) aufweisen. Diese Verzerrungen können gesellschaftliche Auswirkungen haben, z. B. wenn für einen genannten Beruf nur eine bestimmte Hautfarbe dargestellt wird. Sie können sich auch auf das Nutzererlebnis auswirken, indem sie innerhalb eines Satzes generierter Bilder Redundanz erzeugen, anstatt verschiedene Möglichkeiten abzudecken. Hier stellen wir MineTheGap vor – eine Methode zur automatischen Extraktion von Prompts, die bei einem TTI-Modell zu verzerrten Ausgaben führen. Unsere Methode beschränkt sich nicht darauf, Verzerrungen für einen gegebenen Prompt lediglich zu erkennen. Stattdessen nutzt sie einen genetischen Algorithmus, um einen Pool von Prompts iterativ zu verfeinern und gezielt solche zu finden, die Verzerrungen aufdecken. Dieser Optimierungsprozess wird von einer neuartigen Bias-Bewertung gesteuert, die Verzerrungen nach ihrer Schwere einstuft, wie wir an einem Datensatz mit bekannten Verzerrungen validieren. Für einen gegebenen Prompt wird dieser Score durch den Vergleich der Verteilung der generierten Bilder mit der Verteilung von LLM-generierten Texten ermittelt, die Variationen des Prompts darstellen. Code und Beispiele sind auf der Projektwebseite verfügbar.