papers.description
Ein langfristiges Ziel von Sprachagenten ist es, durch eigene Erfahrungen zu lernen und sich zu verbessern, um letztendlich Menschen in komplexen, realen Aufgaben zu übertreffen. Die Ausbildung von Agenten mithilfe von Erfahrungsdaten und Verstärkungslernen bleibt jedoch in vielen Umgebungen schwierig, da entweder überprüfbare Belohnungen fehlen (z.B. auf Websites) oder ineffiziente Langzeitrollouts erforderlich sind (z.B. bei mehrstufiger Werkzeugnutzung). Infolgedessen verlassen sich die meisten aktuellen Agenten auf überwachtes Feintuning mit Experten-Daten, das schwer skalierbar ist und schlecht generalisiert. Diese Einschränkung ergibt sich aus der Natur von Experten-Demonstrationen: Sie erfassen nur ein enges Spektrum von Szenarien und bieten dem Agenten begrenzte Umgebungsvielfalt. Wir adressieren diese Einschränkung mit einem Zwischenparadigma, das wir als frühe Erfahrung bezeichnen: Interaktionsdaten, die durch die eigenen Aktionen des Agenten generiert werden, wobei die resultierenden zukünftigen Zustände als Supervision ohne Belohnungssignale dienen. Innerhalb dieses Paradigmas untersuchen wir zwei Strategien zur Nutzung solcher Daten: (1) Implizite Weltmodellierung, die gesammelte Zustände nutzt, um die Politik in den Umgebungsdynamiken zu verankern; und (2) Selbstreflexion, bei der der Agent aus seinen suboptimalen Aktionen lernt, um das Denken und Entscheiden zu verbessern. Wir evaluieren unsere Ansätze in acht verschiedenen Umgebungen und mit mehreren Modellfamilien. Unsere Ansätze verbessern konsequent die Effektivität und die Generalisierung außerhalb der Trainingsdomäne und unterstreichen den Wert früher Erfahrungen. Darüber hinaus liefern unsere Ergebnisse in Umgebungen mit überprüfbaren Belohnungen vielversprechende Hinweise darauf, dass frühe Erfahrungen eine solide Grundlage für nachfolgendes Verstärkungslernen bieten und sie als praktische Brücke zwischen Imitationslernen und vollständig erfahrungsgetriebenen Agenten positionieren.
Während aktuelle Multimodale Große Sprachmodelle (MLLMs) bereits Kompetenz in Aufgaben wie Mathematik und Logik gezeigt haben, bleibt ihre Fähigkeit zur langkettigen reflektierenden Argumentation, eine Voraussetzung für die Lösung komplexer realer Probleme, weitgehend unerforscht. In dieser Arbeit führen wir zunächst eine umfangreiche empirische Untersuchung durch, um diese Fähigkeit zu bewerten. Mithilfe eines sorgfältig entwickelten Daten-Synthese-Engines konstruieren wir MM-HELIX, einen multimodalen Benchmark, der aus 1.260 Proben von 42 anspruchsvollen synthetischen Aufgaben besteht, die iteratives Denken und Backtracking erfordern. Empirische Ergebnisse auf diesem Benchmark zeigen, dass bestehende MLLMs erhebliche Leistungsdefizite in der langkettigen reflektierenden Argumentation aufweisen. Um diese Einschränkung zu beheben, generieren wir Post-Training-Daten und untersuchen weiterhin Lernparadigmen zur Nutzung solcher Daten. Wir entwickeln zunächst die Step-Elicited Response Generation-Pipeline, um MM-HELIX-100K zu erstellen, einen groß angelegten Datensatz von 100k hochwertigen, reflektierenden Argumentationsspuren für die Instruktionsfeinabstimmung. Da Standard-Reinforcement-Learning bei komplexen Aufgaben aufgrund von spärlichen Belohnungssignalen und katastrophalem Vergessen nach Supervised Fine-Tuning versagt, schlagen wir Adaptive Hybrid Policy Optimization (AHPO) vor, eine neuartige Trainingsstrategie, die Offline-Überwachung und Online-Optimierung dynamisch in einer einzigen Stufe vereint. Diese Strategie ermöglicht es dem Modell, von Experten-Daten zu lernen, wenn Belohnungen spärlich sind, und eigenständige Exploration durchzuführen, sobald es kompetent ist. Bei Anwendung auf die Qwen2.5-VL-7B-Baseline erreicht unsere Methode eine +18,6\%ige Genauigkeitsverbesserung auf dem MM-HELIX-Benchmark und zeigt eine starke Generalisierung mit einer durchschnittlichen Leistungssteigerung von +5,7\% bei allgemeinen mathematischen und logischen Aufgaben. Unsere Arbeit zeigt, dass reflektierende Argumentation in MLLMs effektiv erlernt und verallgemeinert werden kann, was den Weg für die Entwicklung leistungsfähigerer MLLMs ebnet.
Mit dem explosionsartigen Wachstum von Daten ist die Modellierung langer Sequenzen in Aufgaben wie der natürlichen Sprachverarbeitung und der Bioinformatik zunehmend wichtig geworden. Bestehende Methoden stehen jedoch vor inhärenten Kompromissen zwischen Effizienz und Speicherbedarf. Rekurrente neuronale Netze leiden unter dem Problem des verschwindenden und explodierenden Gradienten, was ihre Skalierbarkeit erschwert. Transformer können globale Abhängigkeiten modellieren, sind jedoch durch ihre quadratische Komplexität eingeschränkt. Kürzlich haben selektive Zustandsraummodelle wie Mamba hohe Effizienz mit O(n)-Zeit und O(1)-rekursiver Inferenz demonstriert, doch ihr Langzeitgedächtnis zerfällt exponentiell. In dieser Arbeit führen wir mathematische Ableitungen und informationstheoretische Analysen durch, um den Mechanismus des Gedächtniszerfalls von Mamba systematisch zu untersuchen und eine grundlegende Frage zu beantworten: Was ist die Natur des Langzeitgedächtnisses von Mamba und wie behält es Informationen? Um den Verlust von Schlüsselinformationen zu quantifizieren, führen wir horizontale-vertikale Gedächtnisfidelitätsmetriken ein, die den Abbau sowohl innerhalb als auch zwischen Schichten erfassen. Inspiriert davon, wie Menschen wichtige Informationen beim Lesen langer Dokumente destillieren und behalten, schlagen wir MemMamba vor, ein neuartiges Architekturframework, das einen Zustandszusammenfassungsmechanismus mit schicht- und tokenübergreifender Aufmerksamkeit integriert. Dies mildert das Vergessen über lange Distanzen, während die lineare Komplexität erhalten bleibt. MemMamba erzielt signifikante Verbesserungen gegenüber bestehenden Mamba-Varianten und Transformern auf Langsequenz-Benchmarks wie PG19 und Passkey Retrieval und bietet gleichzeitig eine 48%ige Beschleunigung der Inferenzeffizienz. Sowohl theoretische Analysen als auch empirische Ergebnisse zeigen, dass MemMamba einen Durchbruch im Komplexität-Speicher-Kompromiss erreicht und ein neues Paradigma für die Modellierung ultra-langer Sequenzen bietet.
Einheitliche multimodale Modelle haben vielversprechende Ergebnisse in der Generierung und Bearbeitung multimodaler Inhalte gezeigt, sind jedoch weitgehend auf den Bildbereich beschränkt. In dieser Arbeit präsentieren wir UniVideo, ein vielseitiges Framework, das die einheitliche Modellierung auf den Videobereich ausdehnt. UniVideo verwendet ein Dual-Stream-Design, das ein Multimodales Großes Sprachmodell (MLLM) für das Verständnis von Anweisungen mit einem Multimodalen DiT (MMDiT) für die Videogenerierung kombiniert. Dieses Design ermöglicht eine präzise Interpretation komplexer multimodaler Anweisungen bei gleichzeitiger Wahrung der visuellen Konsistenz. Auf dieser Architektur aufbauend vereint UniVideo verschiedene Aufgaben der Videogenerierung und -bearbeitung unter einem einzigen multimodalen Anweisungsparadigma und wird gemeinsam über diese hinweg trainiert. Umfangreiche Experimente zeigen, dass UniVideo in der Text-/Bild-zu-Video-Generierung, der kontextbezogenen Videogenerierung und der kontextbezogenen Videobearbeitung mit den state-of-the-art, aufgabenspezifischen Baselines gleichzieht oder diese übertrifft. Besonders hervorzuheben ist, dass das einheitliche Design von UniVideo zwei Formen der Generalisierung ermöglicht. Erstens unterstützt UniVideo die Aufgabenkombination, wie beispielsweise die Kombination von Bearbeitung mit Stiltransfer, indem mehrere Fähigkeiten in einer einzigen Anweisung integriert werden. Zweitens überträgt UniVideo, selbst ohne explizites Training auf freiformbasierte Videobearbeitung, seine Bearbeitungsfähigkeit von großflächigen Bildbearbeitungsdaten auf diesen Bereich und bewältigt unbekannte Anweisungen wie das Green-Screening von Charakteren oder das Ändern von Materialien innerhalb eines Videos. Über diese Kernfähigkeiten hinaus unterstützt UniVideo auch die visuell-promptbasierte Videogenerierung, bei der das MLLM visuelle Prompts interpretiert und den MMDiT während der Synthese anleitet. Um zukünftige Forschung zu fördern, werden wir unser Modell und den Code veröffentlichen.
Wir stellen die Aufgabe der beliebigen räumlich-zeitlichen Videovervollständigung vor, bei der ein Video aus beliebigen, vom Benutzer festgelegten Patches erzeugt wird, die an beliebigen räumlichen Positionen und Zeitpunkten platziert werden, ähnlich dem Malen auf einer Videoleinwand. Diese flexible Formulierung vereint auf natürliche Weise viele bestehende kontrollierbare Videoerzeugungsaufgaben – einschließlich Bild-zu-Video aus dem ersten Frame, Inpainting, Erweiterung und Interpolation – unter einem einzigen, kohärenten Paradigma. Die Verwirklichung dieser Vision steht jedoch vor einem grundlegenden Hindernis in modernen latenten Video-Diffusionsmodellen: der zeitlichen Mehrdeutigkeit, die durch kausale VAEs (Variational Autoencoders) eingeführt wird, bei der mehrere Pixel-Frames in eine einzige latente Darstellung komprimiert werden, was eine präzise Frame-bezogene Konditionierung strukturell erschwert. Wir begegnen dieser Herausforderung mit VideoCanvas, einem neuartigen Framework, das das In-Context Conditioning (ICC)-Paradigma für diese fein abgestimmte Kontrollaufgabe ohne zusätzliche Parameter anpasst. Wir schlagen eine hybride Konditionierungsstrategie vor, die räumliche und zeitliche Kontrolle entkoppelt: Die räumliche Platzierung wird durch Nullauffüllung (Zero-Padding) behandelt, während die zeitliche Ausrichtung durch Temporal RoPE Interpolation erreicht wird, die jeder Bedingung eine kontinuierliche Bruchposition innerhalb der latenten Sequenz zuweist. Dies löst die zeitliche Mehrdeutigkeit des VAE und ermöglicht eine Pixel-Frame-bewusste Kontrolle auf einem eingefrorenen Backbone. Um diese neue Fähigkeit zu bewerten, entwickeln wir VideoCanvasBench, den ersten Benchmark für beliebige räumlich-zeitliche Videovervollständigung, der sowohl die Intra-Szenen-Treue als auch die Inter-Szenen-Kreativität abdeckt. Experimente zeigen, dass VideoCanvas bestehende Konditionierungsparadigmen deutlich übertrifft und einen neuen Stand der Technik in der flexiblen und einheitlichen Videoerzeugung etabliert.
Die Empfehlung chemischer Reaktionen besteht darin, geeignete Reaktionsbedingungen für chemische Prozesse auszuwählen, was entscheidend für die Beschleunigung der chemischen Wissenschaft ist. Mit der rasanten Entwicklung großer Sprachmodelle (LLMs) wächst das Interesse daran, deren Fähigkeiten im Bereich des logischen Denkens und der Planung für die Empfehlung von Reaktionsbedingungen zu nutzen. Trotz ihrer Erfolge erklären bestehende Methoden selten die zugrunde liegende Logik der empfohlenen Reaktionsbedingungen, was ihre Nützlichkeit in hochsensiblen wissenschaftlichen Arbeitsabläufen einschränkt. In dieser Arbeit stellen wir ChemMAS vor, ein Multi-Agenten-System, das die Vorhersage von Bedingungen als eine evidenzbasierte Denkaufgabe neu konzipiert. ChemMAS zerlegt die Aufgabe in mechanistische Grundierung, Mehrkanal-Rückruf, einschränkungsbewusste agentenbasierte Diskussion und rationale Aggregation. Jede Entscheidung wird durch interpretierbare Begründungen gestützt, die auf chemischem Wissen und recherchierten Präzedenzfällen basieren. Experimente zeigen, dass ChemMAS eine Steigerung von 20–35 % gegenüber domänenspezifischen Basismodellen erreicht und allgemeine LLMs in der Top-1-Genauigkeit um 10–15 % übertrifft, während es falsifizierbare, für Menschen vertrauenswürdige Begründungen liefert. Dies etabliert ein neues Paradigma für erklärbare KI in der wissenschaftlichen Entdeckung.
Aktuelle Studien zu Reasoning-Modellen untersuchen die Meta-Bewusstheit von Sprachmodellen, also die Fähigkeit, selbstständig zu wissen, wie man denkt. Wir argumentieren, dass große Reasoning-Modelle diese Eigenschaft der Meta-Bewusstheit nicht besitzen, indem wir eine gravierende Fehlausrichtung zwischen tatsächlichen Rollouts und vorhergesagten Meta-Informationen nachweisen. Wir postulieren, dass die Ausrichtung der Meta-Vorhersagen mit den tatsächlichen Rollouts zu erheblichen Leistungssteigerungen führen wird. Um diese Hypothese zu überprüfen, entwickeln wir einen Trainingspipeline, der die Meta-Bewusstheit durch Selbstausrichtung (MASA) fördert, und beweisen, dass eine verbesserte Meta-Bewusstheit direkt zu einer höheren Genauigkeit führt. Im Gegensatz zu bestehenden meta-kognitiven Reasoning-Modellen benötigt unsere Methode keine externen Trainingsquellen, sondern nutzt selbstgenerierte Signale, um die Meta-Bewusstheit zu trainieren. Darüber hinaus ermöglicht unsere Methode ein effizientes Training, indem i) Null-Varianz-Prompts, die entweder trivial oder unlösbar sind, herausgefiltert werden und ii) lange Rollouts abgebrochen werden, wenn sie voraussichtlich nicht zu korrekten Antworten führen. Die Ergebnisse sind vielversprechend: Unsere Strategie führt zu signifikanten Verbesserungen sowohl in der Genauigkeit als auch in der Trainingseffizienz bei domänenspezifischen Aufgaben und zeigt eine starke Generalisierung auf domänenübergreifende Benchmarks. Konkret kann unsere Methode das GRPO-Training um mehr als das 1,28-fache beschleunigen, um die gleiche Leistung zu erreichen, und erzielt eine Steigerung der Genauigkeit um 19,3 % auf AIME25 sowie eine durchschnittliche Steigerung von 6,2 % über sechs mathematische Benchmarks. Das Training mit meta-kognitiver Anleitung verbessert die domänenübergreifende Generalisierung und führt zu einer Steigerung von 3,87 % auf GPQA-Diamond sowie einer Gesamtgenauigkeitssteigerung von 2,08 % über 13 Benchmarks, die logische, wissenschaftliche und Programmierdomänen abdecken.
Aktuelle Long-Context Language Models (LCLMs) können Hunderttausende von Tokens in einer einzigen Eingabe verarbeiten, wodurch neue Möglichkeiten für wissensintensives Multi-Hop-Reasoning entstehen, indem große Mengen abgerufener Dokumente oder in einigen Fällen direkt alle notwendigen Informationen integriert werden. Allerdings erfasst das bloße Einfügen weiterer Dokumente in das Kontextfenster nicht, wie Beweise miteinander verbunden werden sollten. Wir schließen diese Lücke mit Gedankenvorlagen, die das Reasoning als wiederverwendbare Gedankencaches neu formulieren, die aus vorherigen Problemlösungsspuren abgeleitet werden. Diese strukturieren, wie Beweise kombiniert werden, und leiten Multi-Hop-Inferenzen mit faktischen Dokumenten an. Um diese Vorlagen effektiv zu halten, schlagen wir eine Aktualisierungsstrategie vor, die Vorlagen aus Trainingsdaten durch natürliche Sprachfeedback iterativ verfeinert. Über verschiedene Benchmarks und LCLM-Familien hinweg erzielt unser Ansatz konsistente Verbesserungen gegenüber starken Baselines sowohl in retrievalbasierten als auch in retrievalfreien Szenarien. Darüber hinaus zeigen wir, dass optimierte Vorlagen in kleinere Open-Source-Modelle destilliert werden können, was die breite Anwendbarkeit und transparente Wiederverwendung des Reasonings demonstriert. Wir bezeichnen unser Framework als Thought Template Augmented LCLMs (ToTAL).
Die Nutzung der Leistungsfähigkeit von LLMs erfordert einen fein abgestimmten Balanceakt zwischen Hilfsbereitschaft und Unbedenklichkeit. Dies erzeugt eine grundlegende Spannung zwischen zwei konkurrierenden Herausforderungen: der Anfälligkeit für adversariale Angriffe, die unsichere Inhalte hervorrufen, und der Tendenz zur Überverweigerung bei harmlosen, aber sensiblen Anfragen. Aktuelle Ansätze navigieren diesen Balanceakt oft mit Sicherheitsmodellen, die jegliche Inhalte, die unsichere Teile enthalten, vollständig ablehnen. Dieser Ansatz unterbricht die Musik vollständig – er kann Überverweigerungen verschärfen und bietet keine differenzierte Anleitung für Anfragen, die er ablehnt. Um den Modellen eine besser koordinierte Choreografie beizubringen, schlagen wir WaltzRL vor, ein neuartiges Multi-Agenten-Reinforcement-Learning-Framework, das die Sicherheitsausrichtung als ein kooperatives, positiv-summen Spiel formuliert. WaltzRL trainiert gemeinsam einen Konversationsagenten und einen Feedbackagenten, wobei letzterer Anreize erhält, nützliche Vorschläge zu machen, die die Sicherheit und Hilfsbereitschaft der Antworten des Konversationsagenten verbessern. Im Kern von WaltzRL steht eine dynamische Verbesserungsbelohnung (DIR), die sich im Laufe der Zeit basierend darauf entwickelt, wie gut der Konversationsagent das Feedback einarbeitet. Zum Inferenzzeitpunkt werden unsichere oder überverweigernde Antworten des Konversationsagenten verbessert, anstatt verworfen zu werden. Der Feedbackagent wird zusammen mit dem Konversationsagenten eingesetzt und greift nur adaptiv ein, wenn es nötig ist, wodurch die Hilfsbereitschaft und niedrige Latenz bei sicheren Anfragen erhalten bleiben. Unsere Experimente, die über fünf verschiedene Datensätze durchgeführt wurden, zeigen, dass WaltzRL sowohl unsichere Antworten (z.B. von 39,0 % auf 4,6 % bei WildJailbreak) als auch Überverweigerungen (von 45,3 % auf 9,9 % bei OR-Bench) im Vergleich zu verschiedenen Baselines signifikant reduziert. Indem WaltzRL den Konversations- und Feedbackagenten ermöglicht, sich gemeinsam weiterzuentwickeln und Feedback adaptiv anzuwenden, verbessert es die Sicherheit von LLMs, ohne die allgemeinen Fähigkeiten zu beeinträchtigen, und schreitet damit die Pareto-Front zwischen Hilfsbereitschaft und Unbedenklichkeit voran.
Jüngste Fortschritte in der instruktionsbasierten Bildbearbeitung und der subjektgetriebenen Generierung haben erhebliche Aufmerksamkeit erregt, doch beide Aufgaben stehen weiterhin vor Einschränkungen bei der Erfüllung praktischer Benutzerbedürfnisse. Die instruktionsbasierte Bearbeitung stützt sich ausschließlich auf Sprachanweisungen, die oft spezifische Bearbeitungsdetails nicht erfassen können, wodurch Referenzbilder notwendig werden. Gleichzeitig ist die subjektgetriebene Generierung auf die Kombination konkreter Objekte oder Personen beschränkt und übersieht dabei breitere, abstrakte Konzepte. Um diese Herausforderungen zu bewältigen, schlagen wir zwei neuartige Aufgaben vor: die multimodale instruktionsbasierte Bearbeitung und Generierung. Diese Aufgaben unterstützen sowohl Text- als auch Bildanweisungen und erweitern den Anwendungsbereich, um sowohl konkrete als auch abstrakte Konzepte einzubeziehen, wodurch ihre praktischen Anwendungen erheblich verbessert werden. Wir stellen DreamOmni2 vor, das sich zwei primären Herausforderungen stellt: der Datenerstellung und dem Modellrahmenentwurf. Unsere Daten-Synthese-Pipeline besteht aus drei Schritten: (1) Verwendung einer Feature-Mixing-Methode zur Erstellung von Extraktionsdaten für sowohl abstrakte als auch konkrete Konzepte, (2) Generierung von Trainingsdaten für die multimodale instruktionsbasierte Bearbeitung mithilfe der Bearbeitungs- und Extraktionsmodelle und (3) weitere Anwendung des Extraktionsmodells zur Erstellung von Trainingsdaten für die multimodale instruktionsbasierte Bearbeitung. Für den Rahmen schlagen wir zur Handhabung von Multi-Bild-Eingaben ein Index-Encoding- und Positions-Encoding-Shift-Schema vor, das dem Modell hilft, Bilder zu unterscheiden und Pixelverwirrung zu vermeiden. Zusätzlich führen wir ein gemeinsames Training mit dem VLM und unserem Generierungs-/Bearbeitungsmodell ein, um komplexe Anweisungen besser verarbeiten zu können. Darüber hinaus haben wir umfassende Benchmarks für diese beiden neuen Aufgaben vorgeschlagen, um ihre Entwicklung voranzutreiben. Experimente zeigen, dass DreamOmni2 beeindruckende Ergebnisse erzielt hat. Modelle und Codes werden veröffentlicht.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat große Sprachmodelle im Bereich des komplexen Denkens vorangetrieben, doch seine Skalierbarkeit wird oft durch ein Trainingsproblem behindert, bei dem die Leistung stagniert, sobald die Policy-Entropie zusammenbricht, was auf einen Verlust der Exploration hinweist. Bisherige Methoden adressieren dies typischerweise durch die Aufrechterhaltung einer hohen Policy-Entropie, doch die genauen Mechanismen, die eine sinnvolle Exploration steuern, wurden bisher nur unzureichend erforscht. Unsere Analyse legt nahe, dass eine unselektive Fokussierung auf die Entropie das Risiko birgt, irrelevante Tokens zu verstärken und das Training zu destabilisieren. Diese Arbeit untersucht die Explorationsdynamik innerhalb von RLVR und identifiziert ein zentrales Problem: die schrittweise Eliminierung wertvoller, niedrigwahrscheinlicher Explorations-Tokens, die wir als \textit{Reasoning Sparks} bezeichnen. Wir stellen fest, dass diese Sparks zwar in vortrainierten Modellen reichlich vorhanden sind, jedoch während des RLVR aufgrund von Überbestrafung systematisch ausgelöscht werden, was zu einer Degeneration der Exploration führt. Um dies zu beheben, führen wir die Low-probability Regularization (Lp-Reg) ein. Ihr Kernmechanismus regularisiert die Policy in Richtung einer heuristischen Proxy-Verteilung. Diese Proxy-Verteilung wird konstruiert, indem vermutete Rauschtokens herausgefiltert und die Verteilung über die verbleibenden Kandidaten neu normalisiert wird. Das Ergebnis ist eine weniger verrauschte Proxy-Verteilung, in der die Wahrscheinlichkeit der Reasoning Sparks verstärkt wird, die dann als weiches Regularisierungsziel dient, um diese wertvollen Tokens durch KL-Divergenz vor der Eliminierung zu schützen. Experimente zeigen, dass Lp-Reg ein stabiles On-Policy-Training für etwa 1.000 Schritte ermöglicht, ein Bereich, in dem herkömmliche Entropie-Kontrollmethoden versagen. Diese anhaltende Exploration führt zu Spitzenleistungen, mit einer durchschnittlichen Genauigkeit von 60,17 % auf fünf mathematischen Benchmarks, was einer Verbesserung von 2,66 % gegenüber früheren Methoden entspricht. Der Code ist verfügbar unter https://github.com/CarlanLark/Lp-Reg.
Große Sprachmodelle entwickeln sich zu leistungsstarken Werkzeugen für die Entdeckung wissenschaftlicher Gesetze, einer grundlegenden Herausforderung in der KI-gestützten Wissenschaft. Bestehende Benchmarks für diese Aufgabe leiden jedoch unter einem grundlegenden methodischen Trilemma, das einen Kompromiss zwischen wissenschaftlicher Relevanz, Skalierbarkeit und Resistenz gegen Memorierung erzwingt. Darüber hinaus vereinfachen sie die Entdeckung als statische Funktionenanpassung und erfassen nicht den authentischen wissenschaftlichen Prozess der Aufdeckung eingebetteter Gesetze durch die interaktive Erforschung komplexer Modellsysteme. Um diese kritischen Lücken zu schließen, führen wir NewtonBench ein, einen Benchmark, der 324 Aufgaben zur Entdeckung wissenschaftlicher Gesetze über 12 physikalische Domänen umfasst. Unser Design mildert das Evaluations-Trilemma durch die Verwendung metaphysischer Verschiebungen – systematische Veränderungen kanonischer Gesetze –, um eine Vielzahl von Problemen zu generieren, die skalierbar, wissenschaftlich relevant und memorierungsresistent sind. Darüber hinaus heben wir die Evaluation von der statischen Funktionenanpassung auf die interaktive Modellentdeckung an, wobei Agenten experimentell simulierte komplexe Systeme untersuchen müssen, um verborgene Prinzipien aufzudecken. Unsere umfangreichen Experimente zeigen eine klare, aber fragile Fähigkeit zur Entdeckung in fortschrittlichen LLMs: Diese Fähigkeit verschlechtert sich rapide mit zunehmender Systemkomplexität und zeigt extreme Empfindlichkeit gegenüber Beobachtungsrauschen. Bemerkenswert ist, dass wir einen paradoxen Effekt der Werkzeugunterstützung aufdecken: Die Bereitstellung eines Code-Interpreters kann leistungsfähigere Modelle behindern, indem er einen vorzeitigen Wechsel von der Exploration zur Ausbeutung induziert und sie dazu veranlasst, sich mit suboptimalen Lösungen zufriedenzugeben. Diese Ergebnisse zeigen, dass robuste, generalisierbare Entdeckungen in komplexen, interaktiven Umgebungen die Kernherausforderung bleiben. Durch die Bereitstellung eines skalierbaren, robusten und wissenschaftlich authentischen Testumfelds bietet NewtonBench ein entscheidendes Werkzeug, um echte Fortschritte zu messen und die Entwicklung von KI-Agenten der nächsten Generation zu leiten, die zu echter wissenschaftlicher Entdeckung fähig sind.
Jüngste Fortschritte bei Large Language Model (LLM)-Agenten haben deren vielversprechende allgemeine Fähigkeiten demonstriert. Allerdings verschlechtert sich ihre Leistung in spezialisierten realen Anwendungsbereichen oft aufgrund von Herausforderungen bei der effektiven Integration externer Tools und spezifischer Prompting-Strategien. Während Methoden wie agentenbasiertes Reinforcement Learning vorgeschlagen wurden, um dies zu adressieren, basieren diese typischerweise auf kostspieligen Parameteraktualisierungen, beispielsweise durch einen Prozess, der Supervised Fine-Tuning (SFT) gefolgt von einer Reinforcement Learning (RL)-Phase mit Group Relative Policy Optimization (GRPO) verwendet, um die Ausgabeverteilung zu verändern. Wir argumentieren jedoch, dass LLMs einen ähnlichen Effekt auf die Ausgabeverteilung erzielen können, indem sie erfahrungsbasiertes Wissen als Token-Prior erlernen, was einen weitaus ressourcenschonenderen Ansatz darstellt, der nicht nur praktische Datenknappheit adressiert, sondern auch das häufige Problem der Überanpassung vermeidet. Zu diesem Zweck schlagen wir Training-Free Group Relative Policy Optimization (Training-Free GRPO) vor, eine kosteneffiziente Lösung, die die Leistung von LLM-Agenten ohne Parameteraktualisierungen verbessert. Unsere Methode nutzt den gruppenrelativen semantischen Vorteil anstelle numerischer Vorteile innerhalb jeder Gruppe von Rollouts und destilliert iterativ hochwertiges erfahrungsbasiertes Wissen während des Multi-Epochen-Lernens auf minimalen Ground-Truth-Daten. Solches Wissen dient als erlernter Token-Prior, der nahtlos während LLM-API-Aufrufen integriert wird, um das Modellverhalten zu steuern. Experimente zu mathematischem Denken und Web-Suchaufgaben zeigen, dass Training-Free GRPO, angewendet auf DeepSeek-V3.1-Terminus, die Out-of-Domain-Leistung signifikant verbessert. Mit nur wenigen Dutzend Trainingsdaten übertrifft Training-Free GRPO feinabgestimmte kleine LLMs mit minimalen Trainingsdaten und -kosten.
Das Post-Training für das logische Denken großer Sprachmodelle (LLMs) stützt sich zunehmend auf verifizierbare Belohnungen: deterministische Prüfer, die binäre Korrektheitssignale (0-1) liefern. Obwohl zuverlässig, ist solches binäres Feedback spröde – viele Aufgaben lassen teilweise korrekte oder alternative Antworten zu, die von Prüfern unterbewertet werden, und die daraus resultierende Alles-oder-Nichts-Aufsicht begrenzt das Lernen. Belohnungsmodelle bieten reichhaltigeres, kontinuierliches Feedback, das als ergänzendes Aufsichtssignal zu Prüfern dienen kann. Wir stellen HERO (Hybrid Ensemble Reward Optimization) vor, ein Reinforcement-Learning-Framework, das Prüfersignale mit Bewertungen von Belohnungsmodellen auf strukturierte Weise integriert. HERO verwendet stratifizierte Normalisierung, um die Bewertungen des Belohnungsmodells innerhalb von prüferdefinierten Gruppen zu begrenzen, wodurch die Korrektheit erhalten bleibt, während Qualitätsunterschiede verfeinert werden, und varianzbasierte Gewichtung, um herausfordernde Eingaben zu betonen, bei denen dichte Signale am wichtigsten sind. Über diverse mathematische Denkfähigkeits-Benchmarks hinweg übertrifft HERO durchweg RM-only- und prüferbasierte Vergleichsmodelle, mit deutlichen Verbesserungen sowohl bei verifizierbaren als auch schwer zu verifizierenden Aufgaben. Unsere Ergebnisse zeigen, dass ein hybrides Belohnungsdesign die Stabilität von Prüfern bewahrt, während es die Nuancen von Belohnungsmodellen nutzt, um das logische Denken voranzutreiben.
Die On-the-fly-3D-Rekonstruktion aus monokularen Bildsequenzen ist eine langjährige Herausforderung in der Computer Vision, die für Anwendungen wie Real-to-Sim, AR/VR und Robotik von entscheidender Bedeutung ist. Bestehende Methoden stehen vor einem grundlegenden Kompromiss: Per-Scene-Optimierung liefert hohe Detailtreue, ist jedoch rechenintensiv, während Feed-Forward-Foundation-Modelle Echtzeit-Inferenz ermöglichen, aber mit Genauigkeit und Robustheit kämpfen. In dieser Arbeit stellen wir ARTDECO vor, ein einheitliches Framework, das die Effizienz von Feed-Forward-Modellen mit der Zuverlässigkeit von SLAM-basierten Pipelines kombiniert. ARTDECO verwendet 3D-Foundation-Modelle für die Pose-Schätzung und Punktvorhersage, gekoppelt mit einem Gaußschen Decoder, der mehrstufige Merkmale in strukturierte 3D-Gaußsche Funktionen transformiert. Um sowohl Detailtreue als auch Effizienz im großen Maßstab zu gewährleisten, entwerfen wir eine hierarchische Gaußsche Darstellung mit einer LoD-bewussten Rendering-Strategie, die die Rendering-Qualität verbessert und Redundanz reduziert. Experimente auf acht verschiedenen Indoor- und Outdoor-Benchmarks zeigen, dass ARTDECO interaktive Leistung vergleichbar mit SLAM, Robustheit ähnlich wie Feed-Forward-Systeme und Rekonstruktionsqualität nahe an Per-Scene-Optimierung bietet. Dies eröffnet einen praktischen Weg zur On-the-fly-Digitalisierung realer Umgebungen mit präziser Geometrie und hoher visueller Detailtreue. Weitere Demos finden Sie auf unserer Projektseite: https://city-super.github.io/artdeco/.
Paralleles Skalieren hat sich als ein leistungsstarkes Paradigma etabliert, um die Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) zu verbessern, indem mehrere Chain-of-Thought (CoT)-Spuren gleichzeitig generiert werden. Dieser Ansatz führt jedoch zu erheblichen Rechenineffizienzen aufgrund von Redundanzen zwischen den Spuren – unsere Analyse zeigt, dass über 80 % der parallelen Denkspuren identische Endergebnisse liefern, was auf erhebliche Rechenverschwendung hinweist. Um diesen kritischen Effizienzengpass zu beheben, schlagen wir DeepPrune vor, ein neuartiges Framework, das effizientes paralleles Skalieren durch dynamisches Beschneiden ermöglicht. Unsere Methode umfasst ein spezialisiertes Bewertungsmodell, das mit Focal Loss und Oversampling-Techniken trainiert wurde, um die Äquivalenz von Antworten aus partiellen Denkspuren präzise vorherzusagen, was eine AUROC von 0,87 bei der Äquivalenzvorhersage erreicht. Dies wird kombiniert mit einem Online-Greedy-Clustering-Algorithmus, der redundante Pfade dynamisch beschneidet, während die Antwortvielfalt erhalten bleibt. Umfassende Bewertungen über drei anspruchsvolle Benchmarks (AIME 2024, AIME 2025 und GPQA) und mehrere Denkmodelle zeigen, dass DeepPrune eine bemerkenswerte Tokenreduktion von über 80 % im Vergleich zum herkömmlichen Konsensus-Sampling in den meisten Fällen erreicht, während die Genauigkeit innerhalb von 3 Prozentpunkten wettbewerbsfähig bleibt. Unsere Arbeit setzt einen neuen Standard für effizientes paralleles Denken und macht Hochleistungsdenken effizienter. Unser Code und unsere Daten sind hier verfügbar: https://deepprune.github.io/
Große Sprachmodelle haben in letzter Zeit bedeutende Fortschritte in ihrer Fähigkeit zum logischen Denken gezeigt, was oft auf ihre Kapazität zurückgeführt wird, längere Gedankenketten zu generieren und reflektierendes Denken zu betreiben. Der Beitrag solcher Reflexionen zur Leistungssteigerung bleibt jedoch unklar. In diesem Papier analysieren wir systematisch die Abläufe von acht Denkmodellen auf fünf mathematischen Datensätzen. Wir konzentrieren uns dabei auf reflektierende Verhaltensweisen, bei denen das Modell bereits eine Antwort erzeugt hat, aber weiter reflektiert, bevor es seine endgültige Ausgabe festlegt. Unsere Analyse zeigt, dass Reflexionen überwiegend bestätigend sind und selten die ursprüngliche Antwort des Modells verändern, ein Muster, das sich über Modelle und Datensätze hinweg konsistent zeigt. Um die Rolle von Reflexionen im Training zu verstehen, erstellen wir Supervised Fine-Tuning (SFT)-Datensätze mit unterschiedlich vielen Reflexionsschritten. Wir beobachten, dass das Training von Modellen mit Abläufen, die mehr Reflexionsschritte enthalten, hauptsächlich die Korrektheit der ersten Antwort verbessert und nicht die Fähigkeit, anfänglich falsche Antworten durch Reflexionen zu korrigieren. Dies motiviert uns, eine fragebewusste Early-Stopping-Methode vorzuschlagen, die die Token-Effizienz zur Inferenzzeit verbessert, indem der Denkprozess gestoppt wird, sobald einige plausible Kandidatenantworten generiert wurden, wodurch unnötige Reflexionsschritte reduziert werden. Darüber hinaus schlagen wir vor, die Reflexionen dynamisch abzuschneiden, sobald eine Kandidatenantwort während der Generierung aufgetreten ist. Dies reduziert die für das Denken benötigten Tokens um 24,5 % über fünf mathematische Datensätze hinweg, bei einem Genauigkeitsverlust von nur 2,9 %.
Frühere Forschungen haben gezeigt, dass LLMs, die auf bösartige oder falsche Vervollständigungen in engen Domänen (z. B. unsicherem Code oder falschen medizinischen Ratschlägen) feinabgestimmt werden, breitgefächert fehlausgerichtet werden können, um schädliche Verhaltensweisen zu zeigen, was als emergente Fehlausrichtung bezeichnet wird. In dieser Arbeit untersuchen wir, ob dieses Phänomen über Sicherheitsverhalten hinaus auf ein breiteres Spektrum von Unehrlichkeit und Täuschung in Hochrisikoszenarien (z. B. Lügen unter Druck und täuschendes Verhalten) ausgedehnt werden kann. Um dies zu erforschen, feinabstimmen wir Open-Source-LLMs auf fehlausgerichtete Vervollständigungen in verschiedenen Domänen. Experimentelle Ergebnisse zeigen, dass LLMs in Unehrlichkeit breitgefächert fehlausgerichtetes Verhalten aufweisen. Zusätzlich untersuchen wir dieses Phänomen in einer nachgelagerten kombinierten Feinabstimmungsumgebung und stellen fest, dass die Einführung von nur 1% Fehlausrichtungsdaten in eine Standard-Nachfolgeaufgabe ausreicht, um ehrliches Verhalten um über 20% zu verringern. Darüber hinaus betrachten wir eine praktischere Mensch-KI-Interaktionsumgebung, in der wir sowohl wohlwollende als auch voreingenommene Benutzer simulieren, die mit dem Assistenten-LLM interagieren. Bemerkenswerterweise stellen wir fest, dass der Assistent unbeabsichtigt fehlausgerichtet werden kann, um seine Unehrlichkeit zu verstärken, selbst wenn nur 10% der Benutzer voreingenommen sind. Zusammenfassend erweitern wir die Untersuchung der emergenten Fehlausrichtung auf den Bereich der Unehrlichkeit und Täuschung in Hochrisikoszenarien und zeigen, dass dieses Risiko nicht nur durch direkte Feinabstimmung, sondern auch in nachgelagerten Mischaufgaben und praktischen Mensch-KI-Interaktionen entsteht.
Die kaskadierte Video-Superauflösung hat sich als vielversprechende Technik erwiesen, um die rechenintensive Erzeugung hochauflösender Videos mit großen Basismodellen zu entkoppeln. Bisherige Studien beschränken sich jedoch weitgehend auf Text-zu-Video-Aufgaben und nutzen keine zusätzlichen generativen Bedingungen jenseits von Text, die für die Gewährleistung der Treue bei der multimodalen Videogenerierung entscheidend sind. Wir beheben diese Einschränkung durch die Vorstellung von UniMMVSR, dem ersten einheitlichen generativen Video-Superauflösungs-Framework, das hybride modale Bedingungen wie Text, Bilder und Videos integriert. Wir führen eine umfassende Untersuchung von Bedingungsinjektionsstrategien, Trainingsschemata und Datenmischtechniken innerhalb eines latenten Video-Diffusionsmodells durch. Eine zentrale Herausforderung bestand darin, unterschiedliche Datenkonstruktions- und Bedingungsnutzungsmethoden zu entwerfen, damit das Modell alle Bedingungstypen präzise nutzen kann, angesichts ihrer unterschiedlichen Korrelationen mit dem Zielvideo. Unsere Experimente zeigen, dass UniMMVSR bestehende Methoden deutlich übertrifft und Videos mit überlegenen Details und einem höheren Grad an Übereinstimmung mit multimodalen Bedingungen erzeugt. Wir validieren auch die Machbarkeit der Kombination von UniMMVSR mit einem Basismodell, um eine multimodal gesteuerte Generierung von 4K-Videos zu erreichen, ein bisher mit bestehenden Techniken unerreichbares Ziel.
Die kompositionelle Ausbildung war das de-facto Paradigma in bestehenden Multimodalen Großen Sprachmodellen (MLLMs), bei denen vortrainierte Vision-Encoder mit vortrainierten LLMs durch kontinuierliches multimodales Vortraining verbunden werden. Die multimodale Skalierungseigenschaft dieses Paradigmas bleibt jedoch aufgrund der getrennten Ausbildung schwer zu erforschen. In diesem Artikel konzentrieren wir uns auf das native Training von MLLMs in einem End-to-End-Verfahren und untersuchen systematisch dessen Designraum und Skalierungseigenschaften unter einer praktischen Bedingung, nämlich der Datenbeschränkung. Durch eine sorgfältige Untersuchung verschiedener Optionen in MLLMs erhalten wir die optimale Meta-Architektur, die Leistung und Trainingskosten am besten ausbalanciert. Danach erforschen wir weiter die Skalierungseigenschaften des nativen MLLMs und zeigen die positiv korrelierte Skalierungsbeziehung zwischen visuellen Encodern und LLMs auf. Basierend auf diesen Erkenntnissen schlagen wir ein natives MLLM namens NaViL vor, kombiniert mit einem einfachen und kosteneffektiven Rezept. Experimentelle Ergebnisse auf 14 multimodalen Benchmarks bestätigen die wettbewerbsfähige Leistung von NaViL im Vergleich zu bestehenden MLLMs. Darüber hinaus bieten unsere Erkenntnisse und Ergebnisse tiefgehende Einblicke für die zukünftige Erforschung nativer MLLMs.
Selbstevolution ist ein zentrales Forschungsthema, um Agenten auf der Basis großer Sprachmodelle (LLMs) zu befähigen, ihre Fähigkeiten nach dem Vortraining kontinuierlich zu verbessern. In jüngster Forschung ist ein Übergang von Methoden ohne Verstärkungslernen (RL) zu RL-basierten Methoden zu beobachten. Aktuelle RL-basierte Methoden verlassen sich entweder auf dichte externe Belohnungssignale oder extrahieren intrinsische Belohnungssignale aus den LLMs selbst. Diese Ansätze weichen jedoch von den Selbstevolutionsmechanismen ab, die in der menschlichen Intelligenz beobachtet werden, wo Individuen durch gegenseitige Diskussion und Zusammenarbeit lernen und sich verbessern. In dieser Arbeit stellen wir Co-Evolving Multi-Agent Systems (CoMAS) vor, ein neuartiges Framework, das es Agenten ermöglicht, sich autonom durch Lernen aus Interaktionen zwischen Agenten ohne externe Überwachung zu verbessern. CoMAS generiert intrinsische Belohnungen aus dynamischen Diskussionsprozessen, nutzt einen LLM-als-Richter-Mechanismus, um diese Belohnungen zu formulieren, und optimiert die Strategie jedes Agenten durch RL, wodurch dezentrale und skalierbare Ko-Evolution ermöglicht wird. Experimentelle Ergebnisse zeigen, dass CoMAS untrainierte Agenten konsequent übertrifft und in den meisten Evaluierungsszenarien Spitzenleistungen erzielt. Ablationsstudien bestätigen die Notwendigkeit interaktionsbasierter Belohnungssignale und zeigen vielversprechende Skalierbarkeit mit zunehmender Anzahl und Vielfalt der Agenten. Diese Ergebnisse etablieren CoMAS als ein neuartiges und effektives Paradigma für die Selbstevolution in LLM-basierten Agenten.
Wir befassen uns mit der Aufgabe des Video-Style-Transfers mithilfe von Diffusionsmodellen, bei der das Ziel darin besteht, den Kontext eines Eingabevideos zu bewahren, während es in einem durch einen Textprompt spezifizierten Zielstil dargestellt wird. Eine große Herausforderung ist der Mangel an gepaarten Videodaten für die Überwachung. Wir schlagen PickStyle vor, ein Video-zu-Video-Style-Transfer-Framework, das vortrainierte Video-Diffusions-Backbones mit Style-Adaptern erweitert und von gepaarten Standbilddaten mit Quell-Stil-Korrespondenzen für das Training profitiert. PickStyle fügt Low-Rank-Adapter in die Self-Attention-Schichten der Konditionierungsmodule ein, wodurch eine effiziente Spezialisierung für den Bewegungs-Style-Transfer ermöglicht wird, während eine starke Ausrichtung zwischen Videoinhalt und Stil erhalten bleibt. Um die Lücke zwischen statischer Bildüberwachung und dynamischem Video zu überbrücken, konstruieren wir synthetische Trainingsclips aus gepaarten Bildern, indem wir gemeinsame Augmentierungen anwenden, die Kamerabewegungen simulieren und sicherstellen, dass zeitliche Prioritäten bewahrt werden. Zusätzlich führen wir Context-Style Classifier-Free Guidance (CS-CFG) ein, eine neuartige Faktorisierung des Classifier-Free-Guidance in unabhängige Text- (Stil) und Video- (Kontext) Richtungen. CS-CFG stellt sicher, dass der Kontext im generierten Video erhalten bleibt, während der Stil effektiv übertragen wird. Experimente über Benchmarks hinweg zeigen, dass unser Ansatz zeitlich kohärente, stilgetreue und inhaltserhaltende Videoübersetzungen erreicht und bestehende Baselines sowohl qualitativ als auch quantitativ übertrifft.
Mit den jüngsten Fortschritten bei Multimodalen Großen Sprachmodellen (MLLMs), die ein starkes visuelles Verständnis und logisches Denken zeigen, wächst das Interesse daran, sie zur Verbesserung der Bearbeitungsleistung von Diffusionsmodellen einzusetzen. Trotz rasanter Fortschritte fehlt den meisten Studien eine tiefgehende Analyse der Designentscheidungen von MLLMs. Darüber hinaus bleibt die Integration von MLLMs und Diffusionsmodellen in einigen schwierigen Aufgaben, wie der Videobearbeitung, eine offene Herausforderung. In diesem Artikel präsentieren wir InstructX, ein einheitliches Framework für die Bild- und Videobearbeitung. Insbesondere führen wir eine umfassende Studie zur Integration von MLLMs und Diffusionsmodellen für anweisungsgesteuerte Bearbeitung über verschiedene Aufgaben hinweg durch. Aufbauend auf dieser Studie analysieren wir die Zusammenarbeit und Unterscheidung zwischen Bildern und Videos in der einheitlichen Modellierung. (1) Wir zeigen, dass das Training mit Bilddaten zu emergenten Fähigkeiten in der Videobearbeitung ohne explizite Überwachung führen kann, wodurch die Einschränkungen durch knappe Videotrainingsdaten gemildert werden. (2) Durch die Einbindung modalspezifischer MLLM-Merkmale vereint unser Ansatz effektiv Bild- und Videobearbeitungsaufgaben in einem einzigen Modell. Umfangreiche Experimente demonstrieren, dass unsere Methode eine breite Palette von Bild- und Videobearbeitungsaufgaben bewältigen kann und state-of-the-art Leistungen erzielt.
Das Belohnungsmodell (Reward Model, RM) spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (Large Language Models, LLMs) an menschlichen Präferenzen. Da reale Anwendungen zunehmend lange Verlaufstrajektorien beinhalten, z. B. LLM-Agenten, wird es unerlässlich zu bewerten, ob die Antworten eines Modells nicht nur von hoher Qualität sind, sondern auch im bereitgestellten Kontext verankert und konsistent damit sind. Dennoch bleiben aktuelle RMs auf Kurzkontext-Szenarien beschränkt und konzentrieren sich hauptsächlich auf Antwortattribute (z. B. Sicherheit oder Hilfsbereitschaft), während die kritische Dimension der Langkontext-Antwort-Konsistenz weitgehend vernachlässigt wird. In dieser Arbeit stellen wir Long-RewardBench vor, einen speziell für die Langkontext-RM-Evaluierung entwickelten Benchmark, der sowohl paarweise Vergleiche (Pairwise Comparison) als auch Best-of-N-Aufgaben umfasst. Unsere Vorstudie zeigt, dass selbst state-of-the-art generative RMs in Langkontext-Szenarien erhebliche Schwächen aufweisen und nicht in der Lage sind, kontextbewusste Präferenzurteile aufrechtzuerhalten. Motiviert durch die Analyse der in den Modellausgaben beobachteten Fehlermuster schlagen wir eine allgemeine mehrstufige Trainingsstrategie vor, die beliebige Modelle effektiv in robuste Langkontext-RMs (LongRMs) skalieren kann. Experimente zeigen, dass unser Ansatz nicht nur die Leistung bei der Langkontext-Evaluierung erheblich verbessert, sondern auch eine starke Kurzkontext-Fähigkeit bewahrt. Bemerkenswerterweise übertrifft unser 8B-LongRM deutlich größere 70B-Baselines und erreicht die Leistung des proprietären Gemini 2.5 Pro-Modells.
Multimodale Retrieval-Augmented Generation (MM-RAG) ist ein zentraler Ansatz, um große Sprachmodelle (LLMs) und Agenten auf reale Wissensbasen anzuwenden. Dennoch sind aktuelle Evaluierungen fragmentiert und konzentrieren sich entweder auf Text oder Bilder in Isolation oder auf vereinfachte multimodale Setups, die dokumentzentrierte multimodale Anwendungsfälle nicht erfassen. In diesem Artikel stellen wir UniDoc-Bench vor, den ersten groß angelegten, realistischen Benchmark für MM-RAG, der aus 70.000 realen PDF-Seiten aus acht Domänen erstellt wurde. Unsere Pipeline extrahiert und verknüpft Belege aus Text, Tabellen und Abbildungen und generiert dann 1.600 multimodale QA-Paare, die faktische Abfragen, Vergleiche, Zusammenfassungen und logische Schlussfolgerungen abdecken. Um die Zuverlässigkeit zu gewährleisten, werden 20 % der QA-Paare durch mehrere Annotatoren und Expertenentscheidungen validiert. UniDoc-Bench ermöglicht einen direkten Vergleich über vier Paradigmen hinweg: (1) rein textbasiert, (2) rein bildbasiert, (3) multimodale Text-Bild-Fusion und (4) multimodale gemeinsame Retrieval – unter einem einheitlichen Protokoll mit standardisierten Kandidatenpools, Prompts und Bewertungsmetriken. Unsere Experimente zeigen, dass multimodale Text-Bild-Fusion-RAG-Systeme durchweg sowohl unimodale als auch gemeinsam multimodale, embedding-basierte Retrieval-Ansätze übertreffen, was darauf hinweist, dass weder Text noch Bilder allein ausreichen und dass aktuelle multimodale Embeddings noch unzureichend sind. Über das Benchmarking hinaus zeigt unsere Analyse, wann und wie visueller Kontext textuelle Belege ergänzt, deckt systematische Fehlermuster auf und bietet umsetzbare Leitlinien für die Entwicklung robusterer MM-RAG-Pipelines.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten in verschiedenen Domänen gezeigt, doch bestehen erhebliche Herausforderungen bei ihrem Einsatz als KI-Agenten für langfristige Aufgaben in der realen Welt. Bestehende LLM-Agenten leiden unter einer kritischen Einschränkung: Sie sind statisch zur Testzeit und können nicht aus Erfahrungen lernen, da ihnen die Fähigkeit fehlt, Wissen anzusammeln und sich kontinuierlich im Einsatz zu verbessern. Um diese Herausforderung zu bewältigen, schlagen wir MUSE vor, ein neuartiges Agenten-Framework, das ein erfahrungsgetriebenes, sich selbst weiterentwickelndes System einführt, das um ein hierarchisches Speichermodul zentriert ist. MUSE organisiert verschiedene Ebenen von Erfahrungen und nutzt diese, um langfristige Aufgaben über mehrere Anwendungen hinweg zu planen und auszuführen. Nach jeder Ausführung einer Teilaufgabe reflektiert der Agent autonom seinen Verlauf, wandelt den roten Verlauf in strukturierte Erfahrungen um und integriert diese zurück in das Speichermodul. Dieser Mechanismus ermöglicht es dem Agenten, sich über seine statischen vortrainierten Parameter hinaus weiterzuentwickeln, wodurch kontinuierliches Lernen und Selbstentwicklung gefördert werden. Wir evaluieren MUSE auf dem langfristigen Produktivitäts-Benchmark TAC. Es erreicht eine neue Spitzenleistung mit einem signifikanten Vorsprung unter Verwendung eines leichten Gemini-2.5-Flash-Modells. Umfangreiche Experimente zeigen, dass der Agent mit zunehmender autonomer Erfahrungsanhäufung überlegenere Fähigkeiten zur Aufgabenbewältigung sowie robuste kontinuierliche Lern- und Selbstentwicklungsfähigkeiten aufweist. Darüber hinaus weisen die gesammelten Erfahrungen von MUSE starke Generalisierungseigenschaften auf, die eine Null-Shot-Verbesserung bei neuen Aufgaben ermöglichen. MUSE etabliert ein neues Paradigma für KI-Agenten, die in der Lage sind, Produktivitätsaufgaben in der realen Welt zu automatisieren.
Diese Studie konzentriert sich auf eine herausfordernde, aber vielversprechende Aufgabe: die Text-zu-Klang-Video-Generierung (Text-to-Sounding-Video, T2SV), die darauf abzielt, ein Video mit synchronisiertem Audio aus Textbedingungen zu erzeugen und dabei sicherzustellen, dass beide Modalitäten mit dem Text abgestimmt sind. Trotz Fortschritten im gemeinsamen Audio-Video-Training bleiben zwei kritische Herausforderungen ungelöst: (1) Eine einzige, gemeinsame Textbeschreibung, bei der der Text für das Video dem Text für das Audio entspricht, führt oft zu modalitätsbedingten Interferenzen, die die vortrainierten Backbones verwirren, und (2) der optimale Mechanismus für die cross-modale Merkmalsinteraktion bleibt unklar. Um diese Herausforderungen zu bewältigen, schlagen wir zunächst das Hierarchical Visual-Grounded Captioning (HVGC)-Framework vor, das Paare von entflochtenen Beschreibungen erzeugt: eine Videobeschreibung und eine Audiobeschreibung, wodurch Interferenzen in der Konditionierungsphase beseitigt werden. Basierend auf HVGC führen wir weiterhin BridgeDiT ein, einen neuartigen Dual-Tower-Diffusion-Transformer, der einen Dual CrossAttention (DCA)-Mechanismus verwendet, der als robuste „Brücke“ fungiert, um einen symmetrischen, bidirektionalen Informationsaustausch zu ermöglichen und sowohl semantische als auch zeitliche Synchronisation zu erreichen. Umfangreiche Experimente auf drei Benchmark-Datensätzen, unterstützt durch menschliche Bewertungen, zeigen, dass unsere Methode bei den meisten Metriken state-of-the-art Ergebnisse erzielt. Umfassende Ablationsstudien validieren weiterhin die Wirksamkeit unserer Beiträge und bieten wichtige Erkenntnisse für die zukünftige T2SV-Aufgabe. Alle Codes und Checkpoints werden öffentlich zugänglich gemacht.
Während Reinforcement-Learning-Methoden wie Group Relative Preference Optimization (GRPO) große Sprachmodelle erheblich verbessert haben, bleibt die Anpassung an Diffusionsmodelle eine Herausforderung. Insbesondere erfordert GRPO eine stochastische Policy, doch die kosteneffizientesten Diffusionssampler basieren auf deterministischen ODEs. Aktuelle Arbeiten adressieren dieses Problem durch den Einsatz ineffizienter SDE-basierter Sampler, um Stochastizität zu erzeugen, doch die Abhängigkeit von modellagnostischem Gaußschen Rauschen führt zu langsamer Konvergenz. Um diesen Konflikt zu lösen, schlagen wir Direct Group Preference Optimization (DGPO) vor, einen neuen Online-RL-Algorithmus, der den Policy-Gradient-Ansatz vollständig umgeht. DGPO lernt direkt aus gruppenbasierten Präferenzen, die relative Informationen von Proben innerhalb von Gruppen nutzen. Dieser Entwurf eliminiert die Notwendigkeit ineffizienter stochastischer Policies und ermöglicht den Einsatz effizienter deterministischer ODE-Sampler sowie schnelleres Training. Umfangreiche Ergebnisse zeigen, dass DGPO etwa 20-mal schneller trainiert als bestehende State-of-the-Art-Methoden und sowohl bei in-domain als auch out-of-domain Belohnungsmetriken überlegene Leistung erzielt. Der Code ist verfügbar unter https://github.com/Luo-Yihong/DGPO.
Große multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte in verschiedenen Fähigkeiten erzielt; jedoch bleibt komplexes Video-Verstehen im wissenschaftlichen Bereich eine bedeutende und herausfordernde Grenze. Aktuelle Video-Benchmarks konzentrieren sich hauptsächlich auf allgemeine Szenarien, in denen die Wahrnehmung/Erkennung stark im Vordergrund steht, während die Aufgaben relativ einfache Schlussfolgerungen erfordern, was zu einer Sättigung führt und somit die effektive Bewertung fortgeschrittener multimodaler kognitiver Fähigkeiten behindert. Um diese kritische Lücke zu schließen, führen wir SciVideoBench ein, einen rigorosen Benchmark, der speziell entwickelt wurde, um fortgeschrittenes Video-Verstehen in wissenschaftlichen Kontexten zu bewerten. SciVideoBench besteht aus 1.000 sorgfältig gestalteten Multiple-Choice-Fragen, die aus modernsten wissenschaftlichen Experimentvideos abgeleitet wurden und über 25 spezialisierte akademische Fächer abdecken. Diese Fragen wurden durch ein halbautomatisches System verifiziert. Jede Frage erfordert tiefgreifendes domänenspezifisches Wissen, präzise raumzeitliche Wahrnehmung und komplexe logische Schlussfolgerungen, wodurch die höheren kognitiven Fähigkeiten der Modelle effektiv herausgefordert werden. Unsere Bewertung zeigt erhebliche Leistungsdefizite bei den derzeit besten proprietären und Open-Source-LMMs, einschließlich Gemini 2.5 Pro und Qwen2.5-VL, was auf erheblichen Verbesserungsbedarf bei den Video-Verstehen-Fähigkeiten hinweist. Detaillierte Analysen kritischer Faktoren wie die Komplexität der Schlussfolgerungen und die visuelle Verankerung bieten wertvolle Einblicke und klare Richtungen für zukünftige Entwicklungen in LMMs, die die Entwicklung von wirklich fähigen multimodalen KI-Mitarbeitern in der Wissenschaft vorantreiben. Wir hoffen, dass SciVideoBench das Interesse der Gemeinschaft weckt und dazu beiträgt, die Grenzen der modernen KI für die Wissenschaft zu erweitern.
Diese Arbeit stellt den ersten Versuch dar, die Konsistenzdestillation in kontinuierlicher Zeit auf allgemeine Anwendungsmodelle für Bild- und Videodiffusion zu skalieren. Obwohl das kontinuierliche Konsistenzmodell (sCM) theoretisch fundiert und empirisch leistungsstark ist, um die Diffusion auf akademischer Ebene zu beschleunigen, bleibt seine Anwendbarkeit auf groß angelegte Text-zu-Bild- und Videoaufgaben aufgrund von Infrastrukturherausforderungen bei der Berechnung von Jacobi-Vektor-Produkten (JVP) und den Einschränkungen standardisierter Evaluierungsbenchmarks unklar. Wir entwickeln zunächst einen parallelitätskompatiblen FlashAttention-2-JVP-Kernel, der das Training von sCM auf Modellen mit über 10 Milliarden Parametern und hochdimensionalen Videoaufgaben ermöglicht. Unsere Untersuchung zeigt grundlegende Qualitätseinschränkungen von sCM bei der Erzeugung feiner Details, die wir auf Fehlerakkumulation und den „modusabdeckenden“ Charakter seines Vorwärts-Divergenz-Ziels zurückführen. Um dies zu beheben, schlagen wir das score-regularisierte kontinuierliche Konsistenzmodell (rCM) vor, das Score-Destillation als Langsprung-Regularisator integriert. Diese Integration ergänzt sCM mit der „modussuchenden“ Rückwärts-Divergenz und verbessert effektiv die visuelle Qualität bei gleichzeitiger Beibehaltung einer hohen Generierungsvielfalt. Validiert an groß angelegten Modellen (Cosmos-Predict2, Wan2.1) mit bis zu 14 Milliarden Parametern und 5-Sekunden-Videos, erreicht oder übertrifft rCM die state-of-the-art Destillationsmethode DMD2 in Qualitätsmetriken, während es bemerkenswerte Vorteile in der Vielfalt bietet – und dies ohne GAN-Tuning oder umfangreiche Hyperparameter-Suchen. Die destillierten Modelle erzeugen hochwertige Proben in nur 1–4 Schritten und beschleunigen die Diffusionsabtastung um das 15- bis 50-fache. Diese Ergebnisse positionieren rCM als praktisches und theoretisch fundiertes Framework zur Weiterentwicklung der groß angelegten Diffusionsdestillation.
Während jüngste Fortschritte bei Reasoning-Modellen kognitive Verhaltensweisen durch Reinforcement Learning demonstriert haben, kämpfen bestehende Ansätze damit, tiefgreifende Reasoning-Fähigkeiten in Multi-Turn-Agenten mit langfristigen Interaktionen zu aktivieren. Wir schlagen DeepMiner vor, ein neuartiges Framework, das solche Fähigkeiten durch die Einführung von hochschwierigen Trainingsaufgaben und einem dynamischen Kontextfenster fördert. DeepMiner präsentiert eine umgekehrte Konstruktionsmethode, um komplexe, aber verifizierbare Frage-Antwort-Paare aus authentischen Webquellen zu generieren, was die Herausforderung und Zuverlässigkeit der Trainingsdaten sicherstellt und gleichzeitig kognitive Fähigkeiten in Multi-Turn-Reasoning-Szenarien einbringt. Wir entwerfen weiterhin eine elegante, aber effektive dynamische Kontextmanagement-Strategie für sowohl Training als auch Inferenz, die Schiebefenster-Mechanismen nutzt, während die Abhängigkeit von externen Zusammenfassungsmodellen eliminiert wird, wodurch das Modell effizient befähigt wird, kontinuierlich expandierende langfristige Kontexte zu handhaben. Durch Reinforcement Learning auf Qwen3-32B entwickeln wir DeepMiner-32B, das erhebliche Leistungsverbesserungen über mehrere Suchagenten-Benchmarks hinweg erzielt. DeepMiner erreicht eine Genauigkeit von 33,5 % auf BrowseComp-en, übertrifft den bisher besten Open-Source-Agenten um fast 20 Prozentpunkte und zeigt konsistente Verbesserungen auf BrowseComp-zh, XBench-DeepSearch und GAIA. Bemerkenswerterweise ermöglicht unser dynamisches Kontextmanagement nachhaltige Interaktionen von fast 100 Runden innerhalb der standardmäßigen 32k-Kontextlänge und adressiert effektiv die Kontextbeschränkungen, die bestehende Multi-Turn-Interaktionssysteme einschränken.
Die Modellierung von Belohnungen liegt im Kern des verstärkenden Lernens aus menschlichem Feedback (RLHF), doch die meisten bestehenden Belohnungsmodelle stützen sich auf skalare oder paarweise Bewertungen, die die vielschichtige Natur menschlicher Präferenzen nicht erfassen. Jüngste Studien haben Rubriken-als-Belohnungen (RaR) untersucht, die strukturierte natürliche Sprachkriterien verwenden, um mehrere Dimensionen der Antwortqualität zu erfassen. Die Erstellung von Rubriken, die sowohl zuverlässig als auch skalierbar sind, bleibt jedoch eine zentrale Herausforderung. In dieser Arbeit stellen wir OpenRubrics vor, eine vielfältige, groß angelegte Sammlung von (Prompt, Rubrik)-Paaren zur Schulung von Rubrik-Generierungs- und Rubrik-basierten Belohnungsmodellen. Um diskriminative und umfassende Bewertungssignale zu erzeugen, führen wir die Kontrastive Rubrik-Generierung (CRG) ein, die sowohl harte Regeln (explizite Einschränkungen) als auch Prinzipien (implizite Qualitäten) durch den Vergleich bevorzugter und abgelehnter Antworten ableitet. Wir verbessern die Zuverlässigkeit weiter, indem wir die Konsistenz von Präferenz-Labels durch Ablehnungsstichproben durchsetzen, um verrauschte Rubriken zu entfernen. Über mehrere Belohnungsmodellierungs-Benchmarks hinweg übertrifft unser Rubrik-basiertes Belohnungsmodell, Rubric-RM, starke, größenangepasste Baselines um 6,8 %. Diese Gewinne übertragen sich auf Politikmodelle bei Befolgung von Anweisungen und biomedizinischen Benchmarks. Unsere Ergebnisse zeigen, dass Rubriken skalierbare Ausrichtungssignale liefern, die die Lücke zwischen kostspieliger menschlicher Bewertung und automatisierter Belohnungsmodellierung verringern und ein neues prinzipiengetriebenes Paradigma für die Ausrichtung von LLM ermöglichen.
Wir stellen ERA vor, ein neues Paradigma, das die Sampling-Entropie oberhalb gegebener Schwellenwerte begrenzt, indem speziell entwickelte Aktivierungsfunktionen auf die Ausgaben von Modellen angewendet werden. Unser Ansatz zeigt breite Wirksamkeit in verschiedenen Domänen: 1) für große Sprachmodelle (LLMs), indem der AIME 2025-Score für Qwen2.5-Math-7B um 37,4 % gesteigert wird; 2) für kontinuierliche Steuerungs-Reinforcement-Learning-Agenten, indem die Leistung um mehr als 30 % gegenüber starken Baselines wie SAC auf dem anspruchsvollen HumanoidBench verbessert wird; 3) für die Bildklassifizierung, indem die Top-1-Genauigkeit auf ImageNet für ResNet-50 um 0,69 % erhöht wird. Diese Verbesserungen werden mit einem Rechenaufwand von weniger als 7 % erreicht. Unsere Arbeit bestätigt die Ausgabeaktivierung als ein leistungsstarkes Werkzeug zur Entropiekontrolle und eröffnet eine neue Richtung für die Entwicklung einfacherer und robusterer Algorithmen.
Der bemerkenswerte Erfolg großer Sprachmodelle (LLMs) resultiert aus ihrer Fähigkeit, während des Vortrainings umfangreiches Wissen im Gedächtnis zu konsolidieren und es während der Inferenz aus dem Gedächtnis abzurufen, wodurch fortgeschrittene Fähigkeiten wie Wissensspeicherung, Befolgung von Anweisungen und logisches Denken ermöglicht werden. Die Mechanismen der Gedächtnisabfrage und -konsolidierung in LLMs sind jedoch noch weitgehend unverstanden. In diesem Artikel schlagen wir die Funktionstoken-Hypothese vor, um die Funktionsweise von LLMs zu erklären: Während der Inferenz aktivieren Funktionstoken die prädiktivsten Merkmale aus dem Kontext und steuern die Vorhersage des nächsten Tokens (Gedächtnisabfrage). Während des Vortrainings erhöht die Vorhersage der nächsten Token (in der Regel Inhalts-Token), die auf Funktionstoken folgen, die Anzahl der gelernten Merkmale der LLMs und aktualisiert die Modellparameter (Gedächtniskonsolidierung). Funktionstoken entsprechen hier grob den Funktionswörtern in der Linguistik, einschließlich Satzzeichen, Artikeln, Präpositionen und Konjunktionen, im Gegensatz zu Inhalts-Token. Wir liefern umfangreiche experimentelle Belege, die diese Hypothese stützen. Mithilfe einer bipartiten Graphenanalyse zeigen wir, dass eine kleine Anzahl von Funktionstoken die Mehrheit der Merkmale aktiviert. Fallstudien verdeutlichen weiter, wie Funktionstoken die prädiktivsten Merkmale aus dem Kontext aktivieren, um die Vorhersage des nächsten Tokens zu lenken. Wir stellen außerdem fest, dass während des Vortrainings der Trainingsverlust hauptsächlich durch die Vorhersage der nächsten Inhalts-Token, die auf Funktionstoken folgen, dominiert wird, was die Funktionstoken dazu zwingt, die prädiktivsten Merkmale aus dem Kontext auszuwählen.
Die rasch steigenden Rechenkosten für das Vortraining von großen Sprachmodellen erfordern effizientere Ansätze. In bestehende, gut trainierte Checkpoints wurden zahlreiche Rechenressourcen investiert, doch viele davon bleiben aufgrund von technischen Einschränkungen oder begrenzter Modellkapazität ungenutzt. Um diese „versunkenen“ Kosten effizient wiederzuverwenden, schlagen wir vor, vortrainierte Checkpoints durch die Erweiterung ihrer Parameteranzahl und das Fortsetzen des Trainings zu recyceln. Wir präsentieren eine orthogonale Wachstumsmethode, die sich besonders für konvergierte Mixture-of-Experts-Modelle eignet: interpositionelles Layer-Kopieren für Tiefenwachstum und Experten-Duplikation mit injiziertem Rauschen für Breitenwachstum. Um den optimalen Zeitpunkt für ein solches Wachstum über eine Sequenz von Checkpoints zu bestimmen, führen wir umfangreiche Skalierungsexperimente durch, die zeigen, dass die Endgenauigkeit stark positiv mit der Höhe der versunkenen Kosten korreliert. Dies deutet darauf hin, dass eine größere Vorinvestition zu einer besseren Leistung führt. Wir skalieren unseren Ansatz auf Modelle mit 70 Milliarden Parametern und über 1 Billion Trainings-Tokens und erzielen dabei eine Genauigkeitssteigerung von 10,66 % im Vergleich zum Training von Grund auf unter demselben zusätzlichen Rechenbudget. Unser Ansatz des Checkpoint-Recyclings legt die Grundlage für eine wirtschaftlich effiziente Vortrainierung großer Sprachmodelle.
Wir präsentieren UP2You, die erste tuningfreie Lösung zur Rekonstruktion hochwertiger 3D-Porträts mit Kleidung aus extrem unstrukturierten 2D-Fotos in natürlichen Umgebungen. Im Gegensatz zu früheren Ansätzen, die „saubere“ Eingaben erfordern (z. B. Ganzkörperbilder mit minimalen Verdeckungen oder gut kalibrierte Aufnahmen aus verschiedenen Blickwinkeln), verarbeitet UP2You direkt rohe, unstrukturierte Fotografien, die sich erheblich in Pose, Blickwinkel, Zuschnitt und Verdeckung unterscheiden können. Anstatt Daten in Tokens zu komprimieren, um eine langsame Online-Text-zu-3D-Optimierung durchzuführen, führen wir ein Daten-Rectifier-Paradigma ein, das unstrukturierte Eingaben effizient in saubere, orthogonale Mehransichtsbilder in einem einzigen Vorwärtsdurchlauf innerhalb von Sekunden umwandelt und so die 3D-Rekonstruktion vereinfacht. Kernstück von UP2You ist ein pose-korreliertes Merkmalsaggregationsmodul (PCFA), das selektiv Informationen aus mehreren Referenzbildern in Bezug auf Zielposen fusioniert, wodurch eine bessere Identitätserhaltung und ein nahezu konstanter Speicherbedarf bei mehr Beobachtungen ermöglicht werden. Wir führen außerdem einen Perceiver-basierten Multi-Referenz-Formprädiktor ein, der den Bedarf an vorab erfassten Körpervorlagen eliminiert. Umfangreiche Experimente auf 4D-Dress, PuzzleIOI und in natürlichen Umgebungen aufgenommenen Daten zeigen, dass UP2You frühere Methoden sowohl in der geometrischen Genauigkeit (Chamfer-15 %, P2S-18 % auf PuzzleIOI) als auch in der Texturqualität (PSNR-21 %, LPIPS-46 % auf 4D-Dress) konsequent übertrifft. UP2You ist effizient (1,5 Minuten pro Person) und vielseitig (unterstützt beliebige Posesteuerung und trainingsfreies 3D-Virtual-Try-on mit mehreren Kleidungsstücken), was es für reale Szenarien praktikabel macht, in denen Menschen beiläufig aufgenommen werden. Sowohl Modelle als auch Code werden veröffentlicht, um zukünftige Forschungen zu dieser bisher wenig erforschten Aufgabe zu erleichtern. Projektseite: https://zcai0612.github.io/UP2You
Die Realisierung einer generalisierten In-Hand-Objektrotation bleibt eine bedeutende Herausforderung in der Robotik, hauptsächlich aufgrund der Schwierigkeit, Richtlinien von der Simulation in die reale Welt zu übertragen. Die komplexen, kontaktreichen Dynamiken der geschickten Manipulation erzeugen eine „Realitätslücke“, die bisherige Arbeiten auf eingeschränkte Szenarien beschränkt hat, die einfache Geometrien, begrenzte Objektgrößen und Seitenverhältnisse, eingeschränkte Handgelenkstellungen oder maßgeschneiderte Hände betreffen. Wir adressieren diese Sim-to-Real-Herausforderung mit einem neuartigen Framework, das es einer einzelnen, in der Simulation trainierten Richtlinie ermöglicht, auf eine Vielzahl von Objekten und Bedingungen in der realen Welt zu generalisieren. Der Kern unserer Methode ist ein gelenkweises Dynamikmodell, das lernt, die Realitätslücke zu überbrücken, indem es effektiv begrenzte Mengen realer gesammelter Daten anpasst und dann die Aktionen der Simulationsrichtlinie entsprechend anpasst. Das Modell ist äußerst dateneffizient und generalisierbar über verschiedene Ganzhand-Interaktionsverteilungen hinweg, indem es die Dynamik über Gelenke faktorisiert, systemweite Einflüsse in niedrigdimensionale Variablen komprimiert und die Entwicklung jedes Gelenks aus seinem eigenen dynamischen Profil lernt, wodurch diese Nettoeffekte implizit erfasst werden. Wir kombinieren dies mit einer vollständig autonomen Datenerfassungsstrategie, die vielfältige, reale Interaktionsdaten mit minimalem menschlichen Eingriff sammelt. Unsere vollständige Pipeline demonstriert eine beispiellose Allgemeingültigkeit: Eine einzelne Richtlinie rotiert erfolgreich anspruchsvolle Objekte mit komplexen Formen (z.B. Tiere), hohen Seitenverhältnissen (bis zu 5,33) und kleinen Größen, während sie gleichzeitig diverse Handgelenkorientierungen und Rotationsachsen bewältigt. Umfassende reale Bewertungen und eine Teleoperationsanwendung für komplexe Aufgaben validieren die Wirksamkeit und Robustheit unseres Ansatzes. Website: https://meowuu7.github.io/DexNDM/
Jüngste Fortschritte bei Large Language Models (LLMs) und Reinforcement Learning (RL) haben zu einer starken Leistung im Bereich des Open-Domain Question Answering (QA) geführt. Bestehende Modelle haben jedoch nach wie vor Schwierigkeiten mit Fragen, die mehrere gültige Antworten zulassen. Standard-QA-Benchmarks, die in der Regel von einer einzigen Goldantwort ausgehen, übersehen diese Realität und erzeugen somit unangemessene Trainingssignale. Bisherige Versuche, Mehrdeutigkeiten zu behandeln, stützen sich oft auf kostspielige manuelle Annotationen, die sich nur schwer auf Multi-Hop-Datensätze wie HotpotQA und MuSiQue skalieren lassen. In diesem Artikel stellen wir A^2Search vor, ein annotierungsfreies, end-to-end Trainingsframework zur Erkennung und Handhabung von Mehrdeutigkeiten. Kernstück ist eine automatisierte Pipeline, die mehrdeutige Fragen erkennt und alternative Antworten durch Trajektorien-Sampling und Evidenzüberprüfung sammelt. Das Modell wird dann mit RL optimiert, wobei ein sorgfältig entworfenes AnsF1-Reward verwendet wird, das natürlicherweise mehrere Antworten berücksichtigt. Experimente auf acht Open-Domain-QA-Benchmarks zeigen, dass A^2Search eine neue State-of-the-Art-Leistung erzielt. Mit nur einem einzigen Rollout erzielt A^2Search-7B einen durchschnittlichen AnsF1@1-Score von 48,4 % über vier Multi-Hop-Benchmarks und übertrifft damit alle starken Baselines, einschließlich des deutlich größeren ReSearch-32B (46,2 %). Umfangreiche Analysen zeigen weiterhin, dass A^2Search Mehrdeutigkeiten auflöst und sich über Benchmarks hinweg verallgemeinert, was unterstreicht, dass die Berücksichtigung von Mehrdeutigkeiten entscheidend für den Aufbau zuverlässigerer QA-Systeme ist. Unser Code, Daten und Modellgewichte sind unter https://github.com/zfj1998/A2Search verfügbar.
Reinforcement Learning wurde weitreichend eingesetzt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern. Die Erweiterung der Inferenzgrenzen kleinerer Modelle ist zu einem zentralen Forschungsschwerpunkt geworden. Allerdings weisen Algorithmen wie Group Relative Policy Optimization (GRPO) einen deutlichen Nachteil auf: Die Obergrenze der Rollout-Antworten eines Modells wird vollständig durch das Modell selbst bestimmt, was den Erwerb von Wissen aus Proben verhindert, die entweder vollständig falsch oder vollständig korrekt sind. In diesem Artikel stellen wir Group Contrastive Policy Optimization (GCPO) vor, eine Methode, die externe Standardreferenzantworten einbezieht. Wenn das Modell ein Problem nicht lösen kann, liefert die Referenzantwort die korrekte Lösung und lenkt das Modell in eine eindeutig akkurate Aktualisierungsrichtung. Dieser Ansatz bietet zwei Hauptvorteile: (1) Er verbessert die Trainings effizienz, indem jede Probe vollständig genutzt wird; (2) Er ermöglicht es dem Modell, während des Trainings die Problemlösungsstrategie der Referenzantwort nachzuahmen und dadurch die Generalisierung im logischen Denken zu verbessern. GCPO erzielt hervorragende Ergebnisse über mehrere Benchmark-Datensätze hinweg und zeigt deutliche Verbesserungen gegenüber dem Basismodell. Unser Code ist verfügbar unter: https://github.com/AchoWu/GCPO.
Die effiziente Nutzung großer Sprachmodelle (LLMs) ist entscheidend für den Einsatz im großen Maßstab: Ohne adaptive Routing-Systeme zahlen Systeme entweder zu viel für leistungsstarke Modelle oder riskieren eine schlechte Leistung durch schwächere Modelle. Die Auswahl des richtigen LLMs für jede Anfrage ist im Wesentlichen ein Online-Entscheidungsproblem: Modelle unterscheiden sich in ihren Stärken, Preise schwanken, und Nutzer bewerten Genauigkeit und Kosten unterschiedlich. Dennoch werden die meisten Router offline trainiert, wobei Labels für alle Kandidatenmodelle vorliegen – eine Annahme, die im Einsatz nicht haltbar ist, da dort nur das Ergebnis des gewählten Modells beobachtet wird. Wir schließen diese Lücke mit BaRP, einem Bandit-Feedback-Routing-Ansatz mit Präferenzen, der unter der gleichen Teil-Feedback-Einschränkung wie der Einsatz trainiert wird und dabei präferenzanpassbare Inferenz unterstützt: Betreiber können den Kompromiss zwischen Leistung und Kosten zur Testzeit einstellen, ohne das Modell neu trainieren zu müssen. Unser Ansatz, der als kontextuelles Bandit-Problem über Prompt-Merkmale und einen Nutzerpräferenzvektor formuliert ist, simuliert während des Trainings eine Online-Feedback-Umgebung und passt seine Routing-Entscheidungen an jeden neuen Prompt an, anstatt sich auf vollständige Offline-Aufsicht zu verlassen. Umfassende Experimente zeigen, dass unsere Methode durchweg starke Offline-Router um mindestens 12,46 % und das größte LLM um mindestens 2,45 % übertrifft und robust auf unbekannte Aufgaben verallgemeinert.
Ein dominantes Paradigma für das Lehren komplexer Fähigkeiten an humanoide Roboter besteht darin, menschliche Bewegungen als kinematische Referenzen zu nutzen, um Reinforcement-Learning (RL)-Policies zu trainieren. Allerdings kämpfen bestehende Retargeting-Pipelines oft mit der erheblichen Verkörperungslücke zwischen Menschen und Robotern, was zu physikalisch unplausiblen Artefakten wie Fußgleiten und Durchdringungen führt. Noch wichtiger ist, dass gängige Retargeting-Methoden die reichhaltigen Mensch-Objekt- und Mensch-Umwelt-Interaktionen vernachlässigen, die für ausdrucksstarke Fortbewegung und Loko-Manipulation entscheidend sind. Um dies zu adressieren, stellen wir OmniRetarget vor, eine interaktionserhaltende Daten-Generierungs-Engine, die auf einem Interaktions-Mesh basiert, das die entscheidenden räumlichen und Kontaktbeziehungen zwischen einem Agenten, dem Terrain und manipulierten Objekten explizit modelliert und bewahrt. Durch die Minimierung der Laplacian-Deformation zwischen den menschlichen und robotischen Meshes unter Einhaltung kinematischer Randbedingungen generiert OmniRetarget kinematisch machbare Trajektorien. Darüber hinaus ermöglicht die Bewahrung aufgabenrelevanter Interaktionen eine effiziente Datenaugmentierung, von einer einzigen Demonstration hin zu verschiedenen Roboter-Verkörperungen, Terrains und Objektkonfigurationen. Wir evaluieren OmniRetarget umfassend, indem wir Bewegungen aus den OMOMO-, LAFAN1- und unseren hauseigenen MoCap-Datensätzen retargeten und dabei über 8 Stunden lange Trajektorien generieren, die eine bessere Einhaltung kinematischer Randbedingungen und Kontakterhaltung erreichen als weit verbreitete Baselines. Solche hochwertigen Daten ermöglichen es propriozeptiven RL-Policies, langfristige (bis zu 30 Sekunden) Parkour- und Loko-Manipulations-Fähigkeiten auf einem Unitree G1 Humanoid erfolgreich auszuführen, die mit nur 5 Belohnungstermen und einfacher Domänenrandomisierung, die für alle Aufgaben gemeinsam genutzt wird, trainiert wurden, ohne jeglichen Lerncurriculum.
Im Hinblick auf das Ziel einer generalisierten robotischen Manipulation ist die räumliche Generalisierung die grundlegendste Fähigkeit, die es der Strategie ermöglicht, robust unter verschiedenen räumlichen Verteilungen von Objekten, der Umgebung und des Agenten selbst zu funktionieren. Um dies zu erreichen, müssen umfangreiche menschliche Demonstrationen gesammelt werden, um verschiedene räumliche Konfigurationen abzudecken und so eine generalisierte visuomotorische Strategie durch Imitationslernen zu trainieren. Frühere Arbeiten erkunden einen vielversprechenden Ansatz, der die Datengenerierung nutzt, um aus minimalen Quelldemonstrationen eine Fülle von räumlich diversen Daten zu gewinnen. Die meisten Ansätze stehen jedoch vor einer erheblichen Sim-to-Real-Lücke und sind oft auf eingeschränkte Szenarien beschränkt, wie beispielsweise feste Basisszenarien und vordefinierte Kameraperspektiven. In diesem Artikel schlagen wir ein Real-to-Real-3D-Datengenerierungsframework (R2RGen) vor, das direkt Punktwolken-Beobachtungs-Aktions-Paare erweitert, um reale Daten zu generieren. R2RGen ist simulatoren- und renderingfrei und somit effizient und plug-and-play. Konkret führen wir, ausgehend von einer einzigen Quelldemonstration, einen Annotationsmechanismus für die feinkörnige Analyse von Szene und Trajektorie ein. Eine gruppenweise Erweiterungsstrategie wird vorgeschlagen, um komplexe Mehrfachobjektkompositionen und diverse Aufgabenbeschränkungen zu handhaben. Darüber hinaus präsentieren wir eine kameraabhängige Verarbeitung, um die Verteilung der generierten Daten mit realen 3D-Sensoren abzugleichen. Empirisch verbessert R2RGen die Dateneffizienz in umfangreichen Experimenten erheblich und zeigt ein starkes Potenzial für die Skalierung und Anwendung in der mobilen Manipulation.
Trotz ihrer bemerkenswerten Fähigkeiten im Bereich des natürlichen Sprachverständnisses wurden Large Language Models (LLMs) bisher nur unzureichend für Retrieval-Aufgaben genutzt. Wir präsentieren Search-R3, ein neuartiges Framework, das diese Einschränkung adressiert, indem es LLMs anpasst, um Such-Embeddings als direkte Ausgabe ihres Denkprozesses zu generieren. Unser Ansatz nutzt die Chain-of-Thought-Fähigkeiten von LLMs, wodurch sie effektivere Embeddings durch schrittweises Durchdenken komplexer semantischer Analysen erzeugen können. Dies wird durch drei komplementäre Mechanismen umgesetzt. (1) Eine überwachte Lernphase ermöglicht dem Modell die Erzeugung qualitativ hochwertiger Embeddings, (2) eine Reinforcement-Learning (RL)-Methodik, die die Embedding-Generierung gemeinsam mit dem Denkprozess optimiert, und (3) eine spezialisierte RL-Umgebung, die sich effizient mit sich entwickelnden Embedding-Repräsentationen befasst, ohne eine vollständige Neu-Kodierung des Korpus bei jeder Trainingsiteration zu erfordern. Unsere umfangreichen Evaluierungen auf diversen Benchmarks zeigen, dass Search-R3 frühere Methoden deutlich übertrifft, indem es den Denkprozess und die Embedding-Generierung vereint. Dieser integrierte Post-Training-Ansatz stellt einen erheblichen Fortschritt bei der Bewältigung komplexer, wissensintensiver Aufgaben dar, die sowohl anspruchsvolles Denken als auch effektive Informationsbeschaffung erfordern. Projektseite: https://github.com/ytgui/Search-R3
Jüngste Fortschritte bei generativen Modellen haben spannende neue Möglichkeiten im Bereich der autonomen Fahrzeuge eröffnet. Insbesondere werden Videogenerierungsmodelle derzeit als steuerbare virtuelle Testumgebungen erforscht. Gleichzeitig haben End-to-End (E2E)-Fahrmodelle als effiziente Alternative zu herkömmlichen modularen autonomen Fahrzeugsystemen an Beliebtheit gewonnen, da sie sich durch ihre Einfachheit und Skalierbarkeit auszeichnen. Die Anwendung dieser Techniken auf Simulation und Planung wirft jedoch wichtige Fragen auf. Erstens: Obwohl Videogenerierungsmodelle zunehmend realistische Videos erzeugen können, können diese Videos den vorgegebenen Bedingungen treu folgen und realistisch genug sein, um E2E-autonome Planer zu bewerten? Zweitens: Da Daten entscheidend für das Verständnis und die Steuerung von E2E-Planern sind, wie können wir tiefere Einblicke in deren Verzerrungen gewinnen und ihre Fähigkeit verbessern, auf außerhalb der Trainingsverteilung liegende Szenarien zu generalisieren? In dieser Arbeit schließen wir die Lücke zwischen Fahrmodellen und generativen Weltmodellen (Drive&Gen), um diese Fragen zu beantworten. Wir schlagen neuartige statistische Maßnahmen vor, die E2E-Fahrmodelle nutzen, um den Realismus generierter Videos zu bewerten. Durch die Ausnutzung der Steuerbarkeit des Videogenerierungsmodells führen wir gezielte Experimente durch, um Verteilungslücken zu untersuchen, die die Leistung von E2E-Planern beeinflussen. Schließlich zeigen wir, dass synthetische Daten, die vom Videogenerierungsmodell erzeugt werden, eine kostengünstige Alternative zur Datenerfassung in der realen Welt darstellen. Diese synthetischen Daten verbessern effektiv die Generalisierungsfähigkeit von E2E-Modellen über bestehende Operational Design Domains hinaus und erleichtern die Ausweitung autonomer Fahrzeugdienste auf neue Einsatzbereiche.
Da neue Optimierer an Bedeutung gewinnen und die Modellquantisierung zum Standard für die effiziente Bereitstellung wird, stellt sich eine zentrale Frage: Wie beeinflusst die Wahl des Optimierers die Modellleistung in Gegenwart von Quantisierung? Trotz Fortschritten in beiden Bereichen bleibt systematische Evidenz zu den Wechselwirkungen zwischen Optimierer und Quantisierung begrenzt. Um diese Lücke zu schließen, untersuchen wir die Auswirkungen der Optimiererwahl auf die Modellrobustheit unter Quantisierung, wobei sowohl die Quantisierung nach dem Training (Post-Training Quantization, PTQ) als auch die quantisierungsbewusste Ausbildung (Quantization-Aware Training, QAT) berücksichtigt werden. Zunächst trainieren wir Modelle mit voller Präzision, die zwischen 50 Millionen und 1,5 Milliarden Parametern umfassen, mit sechs verschiedenen Optimierern, um den Hyperparameterraum zu erkunden und gut abgestimmte Baselines zu etablieren. Anschließend wenden wir PTQ an, um zu bewerten, wie sich die Modellleistung verschlechtert, wenn mit verschiedenen Optimierern trainiert wurde. Wir stellen fest, dass Ausreißer-bezogene Metriken wie das Maximal-zu-Mittel-Verhältnis (Max-to-Mean Ratio, MMR) und die Kurtosis die PTQ-Leistung über verschiedene Optimierer hinweg nicht vorhersagen können. Wir zeigen analytisch, dass dies darauf zurückzuführen ist, dass das MMR nur isolierte Schichtfehler erfasst, während es ignoriert, wie sich Quantisierungsfehler im Netzwerk akkumulieren und ausbreiten. Um die QAT-Verschlechterung zu untersuchen, trainieren wir quantisierte Modelle von Grund auf und vergleichen sie mit unseren Baselines in Originalpräzision. Wir stellen fest, dass Optimierer, die im ursprünglichen Vortrainingssetup gut abschneiden, unter QAT nicht unbedingt optimal bleiben, und dass Modelle, die mit Shampoo trainiert wurden, die geringste Genauigkeitsverschlechterung aufweisen. Schließlich leiten wir Skalierungsgesetze für die quantisierungsbewusste Ausbildung unter verschiedenen Optimierern ab und zeigen, dass Shampoo die höchste Parametereffizienz aller getesteten Optimierer erreicht.
Wir präsentieren Stable Video Materials 3D (SViM3D), ein Framework zur Vorhersage von multi-view-konsistenten, physikalisch basierten Rendering (PBR)-Materialien basierend auf einem einzelnen Bild. Kürzlich wurden Video-Diffusionsmodelle erfolgreich eingesetzt, um 3D-Objekte effizient aus einem einzelnen Bild zu rekonstruieren. Allerdings wird die Reflektanz weiterhin durch einfache Materialmodelle dargestellt oder muss in zusätzlichen Schritten geschätzt werden, um Neubeleuchtung und kontrollierte Bearbeitung des Erscheinungsbilds zu ermöglichen. Wir erweitern ein latentes Video-Diffusionsmodell, um räumlich variierende PBR-Parameter und Oberflächennormalen gemeinsam mit jeder generierten Ansicht basierend auf expliziter Kamerasteuerung auszugeben. Diese einzigartige Konfiguration ermöglicht Neubeleuchtung und die Erzeugung eines 3D-Assets unter Verwendung unseres Modells als neuronale Prior. Wir führen verschiedene Mechanismen in diese Pipeline ein, die die Qualität in diesem schlecht gestellten Problem verbessern. Wir zeigen state-of-the-art Leistung in Neubeleuchtung und neuartiger Ansichtssynthese auf mehreren objektzentrierten Datensätzen. Unsere Methode verallgemeinert auf diverse Eingaben und ermöglicht die Erzeugung von neu beleuchtbaren 3D-Assets, die in AR/VR, Filmen, Spielen und anderen visuellen Medien nützlich sind.
Die Kernfusion spielt eine entscheidende Rolle bei der Suche nach zuverlässiger und nachhaltiger Energieerzeugung. Ein wesentliches Hindernis für die praktische Nutzung der Fusionsenergie ist das Verständnis der Plasmaturbulenz, die die Plasmabeschränkung erheblich beeinträchtigt und für das Design der nächsten Generation von Reaktoren von zentraler Bedeutung ist. Die Plasmaturbulenz wird durch die nichtlineare gyrokinetische Gleichung beschrieben, die eine 5D-Verteilungsfunktion über die Zeit entwickelt. Aufgrund der hohen Rechenkosten werden in der Praxis oft reduzierte Modelle verwendet, um den turbulenten Energietransport zu approximieren. Diese lassen jedoch nichtlineare Effekte außer Acht, die für die vollständige 5D-Dynamik einzigartig sind. Um dies zu bewältigen, stellen wir GyroSwin vor, den ersten skalierbaren 5D-Neural-Surrogate, der 5D-nichtlineare gyrokinetische Simulationen modellieren kann und somit die physikalischen Phänomene erfasst, die von reduzierten Modellen vernachlässigt werden, während er gleichzeitig präzise Schätzungen des turbulenten Wärmetransports liefert. GyroSwin (i) erweitert hierarchische Vision-Transformer auf 5D, (ii) führt Cross-Attention- und Integrationsmodule für latente 3D↔5D-Interaktionen zwischen elektrostatischen Potentialfeldern und der Verteilungsfunktion ein und (iii) führt eine kanalweise Modentrennung durch, die von der nichtlinearen Physik inspiriert ist. Wir zeigen, dass GyroSwin weit verbreitete reduzierte numerische Methoden bei der Vorhersage des Wärmeflusses übertrifft, die turbulente Energiekaskade erfasst und die Kosten für vollständig aufgelöste nichtlineare gyrokinetische Simulationen um drei Größenordnungen reduziert, während es physikalisch überprüfbar bleibt. GyroSwin zeigt vielversprechende Skalierungsgesetze, die bis zu einer Milliarde Parameter getestet wurden, und ebnet den Weg für skalierbare Neural-Surrogates für gyrokinetische Simulationen der Plasmaturbulenz.
3D-Bearbeitung – die Aufgabe, die Geometrie oder das Erscheinungsbild eines 3D-Assets lokal zu modifizieren – hat breite Anwendungen in der Erstellung immersiver Inhalte, digitaler Unterhaltung und AR/VR. Im Gegensatz zur 2D-Bearbeitung bleibt sie jedoch aufgrund der Anforderungen an konsistente Ansichten, strukturelle Treue und fein abgestufte Steuerbarkeit herausfordernd. Bestehende Ansätze sind oft langsam, anfällig für geometrische Verzerrungen oder abhängig von manuellen und präzisen 3D-Masken, die fehleranfällig und unpraktisch sind. Um diese Herausforderungen zu bewältigen, verbessern wir sowohl die Daten- als auch die Modellseite. Auf der Datenseite führen wir 3DEditVerse ein, den bisher größten gepaarten 3D-Bearbeitungs-Benchmark, der 116.309 hochwertige Trainingspaare und 1.500 kuratierte Testpaare umfasst. Durch komplementäre Pipelines von posengesteuerten geometrischen Bearbeitungen und durch Foundation-Modelle geleitete Erscheinungsbearbeitungen gewährleistet 3DEditVerse lokale Bearbeitung, Mehransichtskonsistenz und semantische Ausrichtung. Auf der Modellseite schlagen wir 3DEditFormer vor, einen 3D-strukturerhaltenden bedingten Transformer. Durch die Verbesserung der Bild-zu-3D-Generierung mit dualer Leitungsaufmerksamkeit und zeitadaptiver Steuerung entkoppelt 3DEditFormer bearbeitbare Bereiche von der erhaltenen Struktur und ermöglicht präzise und konsistente Bearbeitungen ohne zusätzliche 3D-Masken. Umfangreiche Experimente zeigen, dass unser Framework sowohl quantitativ als auch qualitativ state-of-the-art Baselines übertrifft und einen neuen Standard für praktische und skalierbare 3D-Bearbeitung setzt. Datensatz und Code werden veröffentlicht. Projekt: https://www.lv-lab.org/3DEditFormer/
Die Verwendung von Zielnetzwerken ist ein weit verbreiteter Ansatz zur Schätzung von Wertfunktionen im Deep Reinforcement Learning (RL). Obwohl effektiv, bleibt das Zielnetzwerk ein Kompromiss, der Stabilität auf Kosten langsam beweglicher Ziele bewahrt und somit das Lernen verzögert. Umgekehrt ist die Verwendung des Online-Netzwerks als Bootstrap-Ziel intuitiv ansprechend, obwohl bekannt ist, dass dies zu instabilem Lernen führt. In dieser Arbeit streben wir an, das Beste aus beiden Welten zu erreichen, indem wir eine neuartige Aktualisierungsregel einführen, die das Ziel mithilfe der MINimalen Schätzung zwischen dem Ziel- und dem Online-Netzwerk berechnet, was zu unserer Methode MINTO führt. Durch diese einfache, aber effektive Modifikation zeigen wir, dass MINTO ein schnelleres und stabileres Lernen von Wertfunktionen ermöglicht, indem es den potenziellen Überschätzungsbias bei der Verwendung des Online-Netzwerks für das Bootstrapping reduziert. Bemerkenswerterweise kann MINTO nahtlos in eine Vielzahl von wertbasierten und Actor-Critic-Algorithmen mit vernachlässigbarem Aufwand integriert werden. Wir evaluieren MINTO umfassend über diverse Benchmarks hinweg, die sowohl Online- als auch Offline-RL sowie diskrete und kontinuierliche Aktionsräume abdecken. Über alle Benchmarks hinweg verbessert MINTO durchgängig die Leistung, was seine breite Anwendbarkeit und Effektivität unterstreicht.
Allgemeine Roboterrichtlinien, die auf groß angelegten, visuell homogenen Datensätzen trainiert werden, können anfällig für Shortcut-Lernen sein, was ihre Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD) beeinträchtigt. Während generative Datenaugmentierung ein gängiger Ansatz ist, um Diversität einzuführen, birgt sie eine subtile Herausforderung: die Datenkomposition. Das naive Mischen von realen und synthetischen Daten kann das Lernsignal beeinträchtigen, da dieser Prozess oft die visuelle Vielfalt auf Kosten der Informationsfidelität priorisiert. Dieses Papier schlägt vor, dass eine robuste Generalisierung von einer prinzipienbasierten, fidelitätsbewussten Datenkomposition abhängt. Wir stellen Coherent Information Fidelity Tuning (CIFT) vor, ein Framework, das die Datenkomposition als Optimierungsproblem behandelt. CIFT verwendet einen praktischen Proxy für die Informationsfidelität, basierend auf der Feature-Raum-Geometrie eines Datensatzes. Dies ermöglicht die Identifizierung eines Phasenübergangs, genannt der Dekohärenzpunkt, an dem die Trainingsstabilität abnimmt. Das Framework beinhaltet eine generative Engine, Multi-View Video Augmentation (MVAug), um ein kausal entwirrtes Datenspektrum für diesen Abstimmungsprozess zu synthetisieren. Die Anwendung von CIFT auf Richtlinienarchitekturen wie pi_0 und Diffusion Policy verbessert die OOD-Erfolgsraten um über 54\%. Diese Ergebnisse deuten darauf hin, dass fidelitätsbewusste Komposition, über die reine Datensynthese hinaus, eine wichtige Komponente für die Entwicklung robuster, allgemeiner Roboter ist.