Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Wissenschaftler verfügen über ein starkes Urteilsvermögen und Weitsicht, was eng mit dem zusammenhängt, was wir als wissenschaftlichen Geschmack bezeichnen. Hier verwenden wir den Begriff, um die Fähigkeit zu beschreiben, Forschungsideen mit hohem potenziellem Impact zu beurteilen und vorzuschlagen. Die meisten verwandten Forschungsarbeiten konzentrieren sich jedoch darauf, die Ausführungsfähigkeit eines KI-Wissenschaftlers zu verbessern, während die Verbesserung des wissenschaftlichen Geschmacks einer KI weitgehend unerforscht bleibt. In dieser Arbeit schlagen wir Reinforcement Learning from Community Feedback (RLCF) vor, ein Trainingsparadigma, das großskalige Community-Signale als Supervision nutzt, und formulieren das Lernen von wissenschaftlichem Geschmack als ein Problem der Präferenzmodellierung und -anpassung. Für die Präferenzmodellierung trainieren wir Scientific Judge anhand von 700.000 feld- und zeitlich abgeglichenen Paaren von hoch- vs. niedrig-zitierten Publikationen, um Ideen zu bewerten. Für die Präferenzanpassung trainieren wir unter Verwendung von Scientific Judge als Belohnungsmodell ein Policy-Modell, Scientific Thinker, um Forschungsideen mit hohem potenziellem Impact vorzuschlagen. Experimente zeigen, dass Scientific Judge state-of-the-art LLMs (z.B. GPT-5.2, Gemini 3 Pro) übertrifft und sich auf Tests mit zukünftigen Jahren, ungesehene Felder und Peer-Review-Präferenzen verallgemeinert. Darüber hinaus schlägt Scientific Thinker Forschungsideen mit höherem potenziellem Impact vor als Vergleichsmodelle. Unsere Ergebnisse zeigen, dass KI wissenschaftlichen Geschmack erlernen kann, was einen wichtigen Schritt auf dem Weg zu KI-Wissenschaftlern auf menschlichem Niveau darstellt.
Wir stellen HSImul3R vor, einen einheitlichen Rahmen für die simulationsfertige 3D-Rekonstruktion von Mensch-Szene-Interaktionen (HSI) aus beiläufigen Aufnahmen, einschließlich Sparse-View-Bildern und monokularen Videos. Bestehende Methoden leiden unter einer Wahrnehmungs-Simulations-Lücke: visuell plausible Rekonstruktionen verletzen oft physikalische Constraints, was zu Instabilität in Physik-Engines und zum Scheitern in embodied KI-Anwendungen führt. Um diese Lücke zu schließen, führen wir eine physikalisch fundierte bidirektionale Optimierungspipeline ein, die den Physiksimulator als aktiven Supervisor behandelt, um menschliche Dynamik und Szenengeometrie gemeinsam zu verfeinern. In Vorwärtsrichtung setzen wir zielgerichtetes Reinforcement Learning für die Szene ein, um die menschliche Bewegung unter dualer Aufsicht von Bewegungsgenauigkeit und Kontaktstabilität zu optimieren. In Rückwärtsrichtung schlagen wir die direkte Simulationsbelohnungsoptimierung vor, die Simulationsfeedback zu Gravitationsstabilität und Interaktionserfolg nutzt, um die Szenengeometrie zu verbessern. Wir stellen außerdem HSIBench vor, einen neuen Benchmark mit diversen Objekten und Interaktionsszenarien. Umfangreiche Experimente zeigen, dass HSImul3R die ersten stabilen, simulationsfertigen HSI-Rekonstruktionen erzeugt und direkt auf humanoide Roboter in der realen Welt eingesetzt werden kann.
Tiefgreifende Suchfähigkeiten sind zu einer unverzichtbaren Kompetenz für fortschrittliche Large Language Model (LLM)-Agenten geworden. Dennoch wird die Entwicklung hochleistungsfähiger Suchagenten aufgrund fehlender transparenter, hochwertiger Trainingsdaten weiterhin von Industriegiganten dominiert. Diese anhaltende Datenknappheit hat den Fortschritt der breiten Forschungsgemeinde bei der Entwicklung und Innovation in diesem Bereich grundlegend behindert. Um diese Lücke zu schließen, stellen wir OpenSeeker vor, den ersten vollständig quelloffenen Suchagenten (d.h. Modell und Daten), der durch zwei zentrale technische Innovationen Spitzenleistungen erzielt: (1) Faktenbasierte, skalierbare, steuerbare QA-Synthese, die den Web-Graphen durch topologische Expansion und Entitätsverschleierung reverse-engineering betreibt, um komplexe, multi-hop Reasoning-Aufgaben mit kontrollierbarer Abdeckung und Komplexität zu generieren. (2) Denoisierte Trajektoriensynthese, die einen retrospektiven Zusammenfassungsmechanismus zur Rauschunterdrückung der Trajektorie einsetzt und so die Lehrer-LLMs dazu anregt, hochwertige Aktionen zu generieren. Experimentelle Ergebnisse zeigen, dass OpenSeeker, trainiert (ein einziger Trainingslauf) mit nur 11.700 synthetisierten Stichproben, state-of-the-art Leistungen in mehreren Benchmarks erreicht, darunter BrowseComp, BrowseComp-ZH, xbench-DeepSearch und WideSearch. Bemerkenswerterweise übertrifft OpenSeeker, trainiert mit einfachem SFT, den zweitbesten vollständig quelloffenen Agenten DeepDive deutlich (z.B. 29,5 % zu 15,3 % bei BrowseComp) und übertrifft sogar industrielle Mitbewerber wie Tongyi DeepResearch (trainiert mittels umfangreichen kontinuierlichen Pre-Trainings, SFT und RL) bei BrowseComp-ZH (48,4 % zu 46,7 %). Wir stellen den vollständigen Trainingsdatensatz und die Modellgewichte vollständig quelloffen zur Verfügung, um die Forschung an Spitzen-Suchagenten zu demokratisieren und ein transparenteres, kooperativeres Ökosystem zu fördern.
Große Sprachmodelle entwickeln sich von passiven Informationslieferanten zu aktiven Agenten für komplexe Arbeitsabläufe. Ihr Einsatz als zuverlässige KI-Mitarbeiter in Unternehmen wird jedoch durch Benchmarks gebremst, die die Komplexität professioneller Umgebungen nicht erfassen, insbesondere den Bedarf an langfristiger Planung bei persistenten Zustandsänderungen und strengen Zugriffsprotokollen. In dieser Arbeit stellen wir EnterpriseOps-Gym vor, einen Benchmark zur Bewertung agentenbasierter Planung in realistischen Unternehmensumgebungen. Konkret bietet EnterpriseOps-Gym eine containerisierte Sandbox mit 164 Datenbanktabellen und 512 funktionalen Tools, um reale Suchreibung zu simulieren. In dieser Umgebung werden Agenten an 1.150 von Experten kuratierten Aufgaben aus acht geschäftskritischen Bereichen (einschließlich Kundenservice, Personalwesen und IT) evaluiert. Unsere Evaluation von 14 führenden Modellen zeigt kritische Limitationen aktuellster Modelle auf: Das beste Modell, Claude Opus 4.5, erreicht nur eine Erfolgsquote von 37,4%. Eine weitergehende Analyse zeigt, dass das Vorgeben menschlicher Oracle-Pläne die Leistung um 14-35 Prozentpunkte verbessert, was strategisches Reasoning als primären Engpass identifiziert. Zudem scheitern Agenten häufig daran, undurchführbare Aufgaben abzulehnen (bestes Modell: 53,9%), was zu unbeabsichtigten und potenziell schädlichen Nebeneffekten führt. Unsere Ergebnisse unterstreichen, dass aktuelle Agenten noch nicht bereit für den autonomen Unternehmenseinsatz sind. Im weiteren Sinne bietet EnterpriseOps-Gym eine konkrete Testumgebung, um die Robustheit agentenbasierter Planung in professionellen Workflows voranzutreiben.
Was wäre, wenn ein Welt-Simulationsmodell nicht nur eine imaginäre Umgebung, sondern eine tatsächlich existierende Stadt darstellen könnte? Bisherige generative Weltmodelle synthetisieren visuell plausible, aber künstliche Umgebungen, indem sie sämtliche Inhalte erzeugen. Wir stellen das Seoul World Model (SWM) vor, ein stadtgroßes Weltmodell, das auf der realen Stadt Seoul basiert. SWM verankert die autoregressive Videogenerierung durch retrieval-augmentierte Konditionierung auf nahegelegene Street-View-Bilder. Diese Konzeption bringt jedoch mehrere Herausforderungen mit sich, darunter zeitliche Fehlausrichtung zwischen abgerufenen Referenzen und der dynamischen Zielszene, begrenzte Trajektorienvielfalt und Datenlücken durch kameramontierte Aufnahmen in großen Intervallen. Wir begegnen diesen Herausforderungen durch cross-temporale Paarung, einen umfangreichen synthetischen Datensatz für diverse Kameratrajektorien und eine View-Interpolations-Pipeline, die aus spärlichen Street-View-Bildern kohärente Trainingsvideos synthetisiert. Zusätzlich führen wir eine Virtual-Lookahead-Sink ein, um die Langzeiterzeugung zu stabilisieren, indem jedes Segment kontinuierlich an einem zukünftigen Standort neu in einem abgerufenen Bild verankert wird. Wir evaluieren SWM im Vergleich zu aktuellen Video-Weltmodellen in drei Städten: Seoul, Busan und Ann Arbor. SWM übertrifft bestehende Methoden bei der Erzeugung von räumlich treuen, zeitlich konsistenten Langzeitvideos, die in realen urbanen Umgebungen über mehrere hundert Meter verankert sind, und unterstützt dabei diverse Kamerabewegungen und textgesteuerte Szenariovariationen.
Residualverbindungen mit PreNorm sind in modernen großen Sprachmodellen Standard, akkumulieren jedoch alle Schichtenausgaben mit festen Einheitsgewichten. Diese gleichförmige Aggregation führt zu einem unkontrollierten Wachstum des Hidden-State mit zunehmender Tiefe, wodurch der Beitrag jeder Schicht fortschreitend verdünnt wird. Wir schlagen Attention Residuals (AttnRes) vor, das diese feste Akkumulation durch Softmax-Attention über vorherige Schichtenausgaben ersetzt. Dies ermöglicht es jeder Schicht, frühere Repräsentationen mit gelernten, eingabeabhängigen Gewichten selektiv zu aggregieren. Um den Speicher- und Kommunikationsmehraufwand zu adressieren, der durch das Attention-Mechanismus über alle vorherigen Schichtenausgaben beim Training großskaliger Modelle entsteht, führen wir Block AttnRes ein. Dies unterteilt die Schichten in Blöcke und wendet Attention auf Block-Repräsentationen an, wodurch der Speicherbedarf reduziert wird, während der Großteil der Vorteile von vollständigem AttnRes erhalten bleibt. In Kombination mit cache-basierter Pipeline-Kommunikation und einer Zwei-Phasen-Berechnungsstrategie wird Block AttnRes zu einem praktischen Drop-in-Ersatz für standardmäßige Residualverbindungen mit minimalem Overhead. Skalierungsgesetz-Experimente bestätigen, dass die Verbesserung über verschiedene Modellgrößen hinweg konsistent ist, und Ablationstudien validieren den Nutzen der inhaltsabhängigen, tiefenweisen Selektion. Wir integrieren AttnRes weiterhin in die Kimi Linear-Architektur (48B gesamt / 3B aktivierte Parameter) und führen ein Pre-Training auf 1,4T Tokens durch. Hier mildert AttnRes die PreNorm-Verdünnung ab, was zu gleichmäßigeren Ausgabeamplituden und Gradientenverteilungen über die Tiefe hinweg führt und die Leistung bei nachgelagerten Aufgaben in allen evaluierten Bereichen verbessert.
Die Skalierung der Tiefe ist ein entscheidender Treiber für große Sprachmodelle (LLMs). Allerdings leiden LLMs mit zunehmender Tiefe häufig unter Signalverschlechterung: informative Merkmale, die in flachen Schichten gebildet werden, werden durch wiederholte Residual-Updates allmählich verdünnt, was ihre Wiederherstellung in tieferen Schichten erschwert. Wir führen Mixture-of-Depths-Attention (MoDA) ein, einen Mechanismus, der jedem Attention-Head erlaubt, auf Sequenz-KV-Paare der aktuellen Schicht und Tiefen-KV-Paare aus vorhergehenden Schichten zuzugreifen. Wir beschreiben weiterhin einen hardwareeffizienten Algorithmus für MoDA, der nicht-kontinuierliche Speicherzugriffsmuster auflöst und 97,3 % der Effizienz von FlashAttention-2 bei einer Sequenzlänge von 64K erreicht. Experimente mit 1,5B-Parameter-Modellen zeigen, dass MoDA durchgängig starke Baseline-Methoden übertrifft. Bemerkenswerterweise verbessert es die durchschnittliche Perplexität um 0,2 über 10 Validierungs-Benchmarks hinweg und steigert die durchschnittliche Leistung um 2,11 % bei 10 Downstream-Aufgaben, bei einem vernachlässigbaren Rechenaufwand von 3,7 % zusätzlichen FLOPs. Wir stellen zudem fest, dass die Kombination von MoDA mit Post-Norm eine bessere Leistung erzielt als die Verwendung mit Pre-Norm. Diese Ergebnisse deuten darauf hin, dass MoDA eine vielversprechende Grundkomponente für die Tiefenskalierung ist. Der Code ist unter https://github.com/hustvl/MoDA veröffentlicht.
Es gab zahlreiche Versuche, quadratische auf Aufmerksamkeit basierende große Sprachmodelle (LLMs) in subquadratische linearisierte Architekturen zu destillieren. Trotz intensiver Forschung erreichen solche destillierten Modelle jedoch oft nicht die Leistung ihrer Lehrer-LLMs bei verschiedenen Downstream-Aufgaben. Wir setzen uns das Ziel einer verlustfreien Destillation, die wir anhand toleranzkorrigierter Gewinn- und Unentschieden-Raten zwischen Schüler und Lehrer auf Aufgabensets definieren. Zu diesem Zweck führen wir eine effektive Destillations-Pipeline für xLSTM-basierte Schüler-Modelle ein. Wir schlagen eine zusätzliche Verschmelzungsphase vor, bei der individuell linearisierte Experten zu einem einzigen Modell kombiniert werden. Wir zeigen die Wirksamkeit dieser Pipeline, indem wir Basis- und instruktionsfeinabgestimmte Modelle aus den Llama-, Qwen- und Olmo-Familien destillieren. In vielen Szenarien erreichen unsere xLSTM-basierten Schüler-Modelle den Großteil der Lehrerleistung und übertreffen diese sogar bei einigen Downstream-Aufgaben. Unsere Beiträge sind ein wichtiger Schritt hin zu energieeffizienteren und kostengünstigeren Ersatzmodellen für transformerbasierte LLMs.
Vision-Language Models (VLMs) neigen häufig zu "Halluzinationen" – der Generierung plausibel klingender, aber faktisch falscher Aussagen – was eine kritische Hürde für ihren vertrauenswürdigen Einsatz darstellt. In dieser Arbeit schlagen wir ein neues Paradigma zur Diagnose von Halluzinationen vor, indem wir sie von statischen Ausgabefehlern zu dynamischen Pathologien der rechnerischen Kognition eines Modells umdeuten. Unser Framework basiert auf einem normativen Prinzip der rechnerischen Rationalität, das es uns erlaubt, die Generierung eines VLM als dynamische kognitive Trajektorie zu modellieren. Wir entwickeln eine Reihe informationstheoretischer Sonden, die diese Trajektorie auf einen interpretierbaren, niedrigdimensionalen Kognitiven Zustandsraum projizieren. Unsere zentrale Entdeckung ist ein steuerndes Prinzip, das wir als geometrisch-informationstheoretische Dualität bezeichnen: Die geometrische Abnormalität einer kognitiven Trajektorie in diesem Raum ist grundsätzlich äquivalent zu ihrer hohen informationstheoretischen Überraschung (Surprisal). Die Halluzinationserkennung wird damit zu einem Problem der geometrischen Anomalieerkennung. Evaluierungen in verschiedenen Szenarien – von strengen binären Frage-Antwort-Aufgaben (POPE) und umfassendem Reasoning (MME) bis hin zu ungebundenem, freiem Captioning (MS-COCO) – zeigen, dass unser Framework state-of-the-art Leistung erzielt. Entscheidend ist, dass es mit hoher Effizienz unter schwacher Supervision arbeitet und selbst bei stark kontaminierten Kalibrierungsdaten äußerst robust bleibt. Dieser Ansatz ermöglicht eine kausale Zuordnung von Fehlern, indem beobachtbare Fehler auf bestimmte pathologische Zustände abgebildet werden: perzeptive Instabilität (gemessen durch Perzeptuelle Entropie), logisch-kausale Fehlfunktion (gemessen durch Inferenziellen Konflikt) und Entscheidungsunschärfe (gemessen durch Entscheidungsentropie). Letztendlich eröffnet dies einen Weg zum Aufbau von KI-Systemen, deren Entscheidungsfindung durch Design transparent, überprüfbar und diagnostizierbar ist.
Diffusion Transformer (DiTs) haben bemerkenswerte Skalierbarkeit und Qualität in der Bild- und Videogenerierung demonstriert, was das wachsende Interesse an ihrer Erweiterung für kontrollierbare Generierungs- und Bearbeitungsaufgaben weckt. Im Vergleich zu ihren Pendants in der Bildverarbeitung sind die Fortschritte bei der Videokontrolle und -bearbeitung jedoch nach wie vor begrenzt, hauptsächlich aufgrund der Knappheit gepaarter Videodaten und der hohen Rechenkosten für das Training von Videodiffusionsmodellen. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein videofreies Feinabstimmungsframework namens ViFeEdit für Videodiffusion-Transformer vor. Ohne jegliche Form von Videotrainingsdaten zu benötigen, erreicht ViFeEdit eine vielseitige Videogenerierung und -bearbeitung, die ausschließlich mit 2D-Bildern adaptiert wird. Kern unseres Ansatzes ist eine architektonische Neuparametrisierung, die die räumliche Unabhängigkeit von der vollständigen 3D-Aufmerksamkeit in modernen Videodiffusion-Transformer-Modellen entkoppelt. Dies ermöglicht eine visuell originalgetreue Bearbeitung bei gleichzeitiger Aufrechterhaltung der zeitlichen Konsistenz mit nur minimalen zusätzlichen Parametern. Darüber hinaus arbeitet dieses Design in einer Dual-Path-Pipeline mit separaten Zeitschritt-Einbettungen für die Rauschplanung und zeigt eine starke Anpassungsfähigkeit an diverse Konditionierungssignale. Umfangreiche Experimente belegen, dass unsere Methode vielversprechende Ergebnisse bei der kontrollierbaren Videogenerierung und -bearbeitung liefert, obwohl sie nur mit minimalem Training auf 2D-Bilddaten auskommt. Der Code ist verfügbar unter https://github.com/Lexie-YU/ViFeEdit.
Das Training autonomer Web-Agenten wird grundlegend durch die Umgebungen limitiert, in denen sie lernen: Echte Websites sind unsicher zu erkunden, schwer zurückzusetzen und bieten selten überprüfbare Rückmeldungen. Wir stellen VeriEnv vor, ein Framework, das Sprachmodelle als Umgebungsersteller behandelt und automatisch reale Websites in vollständig ausführbare, verifizierbare synthetische Umgebungen klont. Durch die Bereitstellung von kontrolliertem internem Zugriff via eines Python-SDK ermöglicht VeriEnv Agenten, sich selbst Aufgaben mit deterministischen, programmatisch überprüfbaren Belohnungen zu generieren, was die Abhängigkeit von heuristischen oder LLM-basierten Bewertungen beseitigt. Dieses Design entkoppelt das Lernen der Agenten von unsicheren Interaktionen in der realen Welt und ermöglicht gleichzeitig skalierbare Selbstentwicklung durch Umgebungserweiterung. In Experimenten mit Web-Agenten-Benchmarks zeigen wir, dass mit VeriEnv trainierte Agenten auf ungesehene Websites generalisieren, websitespezifische Meisterschaft durch sich selbst weiterentwickelndes Training erreichen und von der Skalierung der Anzahl an Trainingsumgebungen profitieren. Code und Ressourcen werden bei Annahme unter https://github.com/kyle8581/VeriEnv veröffentlicht.
Die Optimierung komplexer Systeme, von LLM-Prompts bis hin zu Multi-Turn-Agenten, erfordert traditionell arbeitsintensive manuelle Iterationen. Wir formalisieren diese Herausforderung als ein stochastisches generatives Optimierungsproblem, bei dem ein generatives Sprachmodell als Optimierer agiert und durch numerische Belohnungen und Textfeedback geleitet wird, um das beste System zu finden. Wir stellen Prioritized Optimization with Local Contextual Aggregation (POLCA) vor, einen skalierbaren Rahmen, der entwickelt wurde, um Stochastizität in der Optimierung – wie verrauschtes Feedback, Stichproben-Minibatches und stochastisches Systemverhalten – zu handhaben und gleichzeitig die unkontrollierte Ausweitung des Lösungsraums effektiv zu verwalten. POLCA verwaltet eine Prioritätswarteschlange, um den Trade-off zwischen Exploration und Exploitation zu steuern, und verfolgt systematisch Kandidatenlösungen sowie deren Bewertungshistorien. Um die Effizienz zu steigern, integrieren wir einen ε-Net-Mechanismus zur Aufrechterhaltung der Parameterdiversität und einen LLM-Summarizer zur Durchführung von Meta-Learning über historische Versuche hinweg. Wir beweisen theoretisch, dass POLCA unter Stochastizität gegen nahezu optimale Kandidatenlösungen konvergiert. Wir evaluieren unseren Rahmen anhand diverser Benchmarks, darunter τ-bench, HotpotQA (Agentenoptimierung), VeriBench (Code-Übersetzung) und KernelBench (CUDA-Kernel-Generierung). Experimentelle Ergebnisse zeigen, dass POLCA eine robuste, proben- und zeiteffiziente Leistung erzielt und durchgängig state-of-the-art Algorithmen bei deterministischen und stochastischen Problemen übertrifft. Die Codebasis für diese Arbeit ist öffentlich unter https://github.com/rlx-lab/POLCA verfügbar.
Große Reasoning-Modelle (LRMs) erzielen beeindruckende Leistungen bei komplexen Reasoning-Aufgaben durch Chain-of-Thought (CoT)-Reasoning, das es ihnen ermöglicht, Zwischendenkschritte zu generieren, bevor sie zur endgültigen Antwort gelangen. Allerdings neigen LRMs oft zu erheblichem „Overthinking“, indem sie übermäßig viel Rechenzeit aufwenden, selbst nachdem die Antwort bereits früh generiert wurde. Frühere Arbeiten haben die Existenz einer optimalen Reasoning-Länge identifiziert, bei deren Trunkierung die CoT-Ausgaben deutlich verkürzt werden können, ohne dass sich die Leistung praktisch ändert. Die Bestimmung optimaler CoT-Längen für praktische Datensätze ist jedoch höchst anspruchsvoll, da diese vollständig aufgaben- und modellabhängig sind. In diesem Beitrag gehen wir genau dieses Problem an und entwerfen TERMINATOR, eine Early-Exit-Strategie für LRMs während der Inferenz, um Overthinking zu mildern. Die zentrale Idee von TERMINATOR ist, dass die erste Generierung der endgültigen Antwort eines LRMs oft vorhersagbar ist, und wir nutzen diese ersten Antwortpositionen, um einen neuartigen Datensatz optimaler Reasoning-Längen zum Training von TERMINATOR zu erstellen. Durch diesen Ansatz erreicht TERMINATOR signifikante Verkürzungen der CoT-Längen um durchschnittlich 14 %–55 % über vier anspruchsvolle praktische Datensätze hinweg: MATH-500, AIME 2025, HumanEval und GPQA, wobei er gleichzeitig aktuelle state-of-the-art Methoden übertrifft.
Bestehende Benchmarks für Webseiten-Generierung verwenden Textprompts oder statische Screenshots als Eingabe. Videos hingegen vermitteln natürlicherweise reichhaltigere Signale wie Interaktionsabläufe, Übergangszeitpunkte und Bewegungsflüssigkeit, die für die originalgetreue Nachbildung von Webseiten entscheidend sind. Trotz dieses Potenzials bleibt die videobasierte Webseiten-Generierung weitgehend unerforscht, da es keinen speziellen Benchmark für diese Aufgabe gibt. Um diese Lücke zu schließen, stellen wir WebVR vor – einen Benchmark, der evaluiert, ob MLLMs Webseiten aus Demonstrationsvideos originalgetreu nachbilden können. WebVR umfasst 175 Webseiten aus verschiedenen Kategorien, die alle durch eine kontrollierte Synthese-Pipeline erstellt wurden, anstatt durch Web-Crawling. Dies gewährleistet abwechslungsreiche und realistische Demonstrationen ohne Überschneidungen mit bestehenden Online-Seiten. Zusätzlich entwickeln wir einen detaillierten, menschlich abgestimmten Bewertungsmaßstab, der die generierten Webseiten in mehreren Dimensionen evaluiert. Experimente mit 19 Modellen zeigen erhebliche Defizite bei der Nachbildung fein abgestimmter Stilelemente und Bewegungsqualität, während die automatisierte Bewertung basierend auf unserem Maßstab eine 96%ige Übereinstimmung mit menschlichen Präferenzen erreicht. Wir veröffentlichen den Datensatz, das Evaluationstoolkit und Baseline-Ergebnisse, um zukünftige Forschung zur Video-zu-Webseite-Generierung zu unterstützen.
Alle Klassifikatoren, einschließlich modernster Bildverarbeitungsmodelle, besitzen Invarianten, die teilweise in der Geometrie ihrer linearen Abbildungen begründet sind. Diese Invarianten, die im Nullraum des Klassifikators liegen, induzieren äquivalente Eingabemengen, die auf identische Ausgaben abgebildet werden. Der semantische Gehalt dieser Invarianten bleibt vage, da bestehende Ansätze Schwierigkeiten haben, menscheninterpretierbare Informationen bereitzustellen. Um diese Lücke zu schließen, stellen wir SING (Semantic Interpretation of the Null-space Geometry) vor, eine Methode, die in Bezug auf das Netzwerk äquivalente Bilder konstruiert und den verfügbaren Variationen semantische Interpretationen zuweist. Wir verwenden eine Abbildung von Netzwerkfeatures zu multimodalen Vision-Language-Modellen. Dies ermöglicht es uns, natürliche Sprachbeschreibungen und visuelle Beispiele der induzierten semantischen Verschiebungen zu erhalten. SING kann auf ein einzelnes Bild angewendet werden, um lokale Invarianten aufzudecken, oder auf Bildersets, was eine breite statistische Analyse auf Klassen- und Modellebene ermöglicht. So zeigt unsere Methode beispielsweise, dass ResNet50 relevante semantische Attribute in den Nullraum "leakt", während DinoViT, ein mit selbstüberwachtem DINO vortrainierter ViT, überlegen darin ist, Klassensemantik über den invarianten Raum hinweg beizubehalten.
Große Sprachmodelle zeigen oft Aha-Momente während des Schlussfolgerns, etwa scheinbare Selbstkorrekturen nach Tokens wie "Moment", doch ihre zugrundeliegenden Mechanismen bleiben unklar. Wir stellen ein informationstheoretisches Rahmenwerk vor, das Schlussfolgern in prozedurale Information und epistemische Verbalisierung zerlegt – die explizite Externalisierung von Unsicherheit, die nachgelagerte Steuerungsaktionen unterstützt. Wir zeigen, dass rein prozedurales Schlussfolgern informationell stagnieren kann, während epistemische Verbalisierung fortgesetzten Informationserwerb ermöglicht und entscheidend für das Erreichen von Informationssuffizienz ist. Empirische Ergebnisse belegen, dass starke Schlussfolgerungsleistung durch Unsicherheitsexternalisierung und nicht durch spezifische Oberflächentokens angetrieben wird. Unser Rahmenwerk vereint frühere Erkenntnisse zu Aha-Momenten und Post-Training-Experimenten und bietet Einblicke für die zukünftige Gestaltung von Schlussfolgerungsmodellen.
Motivation ist ein zentraler Antrieb menschlichen Verhaltens, der Entscheidungen, Ziele und Aufgabenleistung prägt. Da große Sprachmodelle (LLMs) zunehmend mit menschlichen Präferenzen abgeglichen werden, stellen wir die Frage, ob sie so etwas wie Motivation aufweisen. Wir untersuchen, ob LLMs unterschiedliche Motivationsniveaus "berichten", wie diese Berichte mit ihrem Verhalten zusammenhängen und ob externe Faktoren sie beeinflussen können. Unsere Experimente zeigen konsistente und strukturierte Muster, die der menschlichen Psychologie ähneln: Die selbstberichtete Motivation steht im Einklang mit verschiedenen Verhaltenssignaturen, variiert je nach Aufgabentyp und kann durch externe Manipulationen moduliert werden. Diese Ergebnisse demonstrieren, dass Motivation ein kohärenter, organisierender Konstrukt für das Verhalten von LLMs ist, das Berichte, Entscheidungen, Anstrengung und Leistung systematisch verbindet und motivationale Dynamiken offenbart, die denen in der menschlichen Psychologie gleichen. Diese Perspektive vertieft unser Verständnis des Modellverhaltens und seiner Verbindung zu menscheninspirierten Konzepten.
Die Erzeugung menschlicher Bewegungen wird häufig in euklidischen Räumen erlernt, obwohl gültige Bewegungen einer strukturierten nichteuklidischen Geometrie folgen. Wir stellen Riemannian Motion Generation (RMG) vor, einen einheitlichen Rahmen, der Bewegung auf einem Produktmannigfaltigkeit abbildet und Dynamik mittels Riemannian Flow Matching erlernt. RMG faktorisiert Bewegung in mehrere Mannigfaltigkeitsfaktoren, was eine skalierungsfreie Darstellung mit intrinsischer Normalisierung ergibt, und nutzt geodätische Interpolation, Tangentialraum-Supervision und mannigfaltigkeitserhaltende ODE-Integration für Training und Abtastung. Auf HumanML3D erreicht RMG state-of-the-art FID im HumanML3D-Format (0,043) und belegt in allen berichteten Metriken unter dem MotionStreamer-Format den ersten Platz. Auf MotionMillion übertrifft es ebenfalls starke Baselines (FID 5,6, R@1 0,86). Ablationstudien zeigen, dass die kompakte T+R (Translation + Rotationen) Darstellung die stabilste und effektivste ist, was geometrie-bewusste Modellierung als praktischen und skalierbaren Weg zur hochwertigen Bewegungserzeugung hervorhebt.
Wir stellen die PokeAgent Challenge vor, einen umfangreichen Benchmark für die Entscheidungsforschung, der auf Pokémons Multi-Agenten-Kampfsystem und umfassender Rollenspielumgebung (RPG) aufbaut. Partielle Beobachtbarkeit, spieltheoretisches Denken und langfristige Planung bleiben ungelöste Probleme für die Spitzen-KI, doch nur wenige Benchmarks testen alle drei Aspekte gleichzeitig unter realistischen Bedingungen. PokeAgent adressiert diese Einschränkungen im großen Maßstab durch zwei komplementäre Wettbewerbsbereiche: unseren Kampfbereich, der strategisches Denken und Generalisierung unter partieller Beobachtbarkeit in kompetitiven Pokémon-Kämpfen erfordert, und unseren Speedrunning-Bereich, der langfristige Planung und sequenzielle Entscheidungsfindung im Pokémon-RPG voraussetzt. Unser Kampfbereich liefert einen Datensatz mit über 20 Millionen Kampfverläufen sowie eine Reihe von heuristischen, reinforcement-basierten und LLM-gestützten Baseline-Modellen, die wettbewerbsfähiges Spiel auf hohem Niveau ermöglichen. Unser Speedrunning-Bereich bietet den ersten standardisierten Evaluierungsrahmen für RPG-Speedrunning, inklusive eines Open-Source-Multi-Agenten-Orchestrierungssystems für modulare, reproduzierbare Vergleiche von LLM-Ansätzen. Unser NeurIPS-2025-Wettbewerb validiert sowohl die Qualität unserer Ressourcen als auch das Forschungsinteresse an Pokémon, mit über 100 teilnehmenden Teams in beiden Bereichen und detaillierten Beschreibungen der Siegerlösungen in unserem Beitrag. Die Einreichungen der Teilnehmer und unsere Baselines zeigen erhebliche Lücken zwischen generalistischen (LLM), spezialisierten (RL) und menschlichen Spitzenleistungen auf. Analysen mit der BenchPress-Evaluierungsmatrix zeigen, dass Pokémon-Kämpfe nahezu orthogonal zu standardmäßigen LLM-Benchmarks sind, Fähigkeiten messen, die von bestehenden Testreihen nicht erfasst werden, und Pokémon als ungelösten Benchmark positionieren, der die RL- und LLM-Forschung vorantreiben kann. Wir etablieren einen lebendigen Benchmark mit einer Live-Bestenliste für den Kampfbereich und einer eigenständigen Evaluierung für den Speedrunning-Bereich unter https://pokeagentchallenge.com.
Verstärkendes Lernen für Code-Generierung basiert auf verifizierbaren Belohnungen durch Unit-Test-Bestandsquoten. Hochwertige Test-Suiten sind jedoch rar, bestehende Datensätze bieten nur begrenzte Abdeckung, und statische Belohnungen passen sich nicht an verbesserte Modelle an. Neuere Self-Play-Methoden vereinen Code- und Testgenerierung in einem einzigen Modell, stehen jedoch vor einem grundsätzlichen Dilemma: White-Box-Zugang führt zu Selbstkollusion, bei der das Modell triviale Tests für einfache Belohnungen erzeugt, während Black-Box-Beschränkung generische Tests liefert, die implementierungsspezifische Fehler verpassen. Wir stellen Code-AI vor, einen adversariellen Ko-Evolutionsrahmen, der gemeinsam ein Code-LLM und ein Test-LLM mit entgegengesetzten Zielen optimiert. Das Code-LLM wird dafür belohnt, mehr Tests zu bestehen, während das Test-LLM belohnt wird, wenn es mehr Defekte aufdeckt. Diese architektonische Trennung beseitigt Selbstkollusionsrisiken und ermöglicht sicher White-Box-Testgenerierung, bei der das Test-LLM Kandidatencode inspizieren kann, um gezielte adversarielle Tests zu entwerfen. Wir führen weiterhin einen Fehlerbuch-Mechanismus für Experience Replay sowie eine zusammengesetzte Belohnungsfunktion ein, die Testvalidität mit adversarieller Schwierigkeit abwägt. Experimente mit Qwen2.5-Coder-Modellen zeigen, dass Code-AI eine Code-Generierungsleistung erreicht, die mit Modellen vergleichbar oder überlegen ist, die mit menschlich annotierten Tests trainiert wurden, und gleichzeitig die Testgenerierungsfähigkeit signifikant verbessert.
Die Affordance-Vorhersage dient als entscheidende Brücke zwischen Wahrnehmung und Handlung in verkörpertter KI. Bisherige Forschung beschränkt sich jedoch auf Lochkameramodelle, die unter eingeschränkten Sichtfeldern und fragmentierten Beobachtungen leiden, wodurch häufig kritische ganzheitliche Umweltkontexte verloren gehen. In dieser Arbeit präsentieren wir die erste Untersuchung zur panoramischen Affordance-Vorhersage unter Verwendung von 360-Grad-Bildern, um globale räumliche Beziehungen und ein holistisches Szenenverständnis zu erfassen. Um diese neuartige Aufgabe zu ermöglichen, führen wir zunächst PAP-12K ein, einen groß angelegten Benchmark-Datensatz mit über 1.000 ultrahochauflösenden (12k, 11904 x 5952) Panoramabildern, die mehr als 12.000 sorgfältig annotierte QA-Paare und Affordance-Masken enthalten. Darüber hinaus schlagen wir PAP vor, eine trainingsfreie, grob-zu-fein-Pipeline, inspiriert vom menschlichen fovealen Sehsystem, um die ultrahohe Auflösung und starken Verzerrungen von Panoramabildern zu bewältigen. PAP nutzt rekursives visuelles Routing durch Grid-Prompting zur schrittweisen Zielortung, wendet einen adaptiven Blickmechanismus zur Korrektur lokaler geometrischer Verzerrungen an und verwendet eine kaskadierte Grounding-Pipeline zur Extraktion präziser instanzbasierter Masken. Experimentelle Ergebnisse auf PAP-12K zeigen, dass bestehende Affordance-Vorhersagemethoden für Standard-Perspektivbilder aufgrund der einzigartigen Herausforderungen der Panoramavision unter erheblichen Leistungseinbußen leiden und versagen. Im Gegensatz dazu überwindet der PAP-Rahmen diese Hindernisse effektiv, übertrifft state-of-the-art Baseline-Methoden deutlich und unterstreicht das immense Potenzial der Panoramawahrnehmung für robuste verkörperte Intelligenz.
Multimodale Large Language Models (MLLMs) haben bei isolierter Betrachtung eine starke Leistung im Verständnis visueller und auditiver Inhalte gezeigt. Ihre Fähigkeit, omni-modale (visuelle, auditive und textuelle) Signale in langen und komplexen Videos gemeinsam zu verarbeiten, ist jedoch weitgehend unerforscht. Wir stellen MMOU vor, einen neuen Benchmark, der entwickelt wurde, um multimodales Verständnis und Schlussfolgerungen unter diesen anspruchsvellen, realen Bedingungen systematisch zu bewerten. MMOU besteht aus 15.000 sorgfältig zusammengestellten Fragen, die 9038 aus dem Internet stammenden Videos unterschiedlicher Länge zugeordnet sind. Diese Videos umfassen diverse Domänen und weisen einen reichen, eng gekoppelten audiovisuellen Inhalt auf. Der Benchmark deckt 13 grundlegende Fähigkeitskategorien ab, die alle die Integration von Informationen über Modalitäten und Zeit hinweg erfordern. Alle Fragen wurden von professionellen Annotatoren in mehreren Durchgängen manuell annotiert, um hohe Qualität und Schlussfolgerungstreue zu gewährleisten. Wir evaluieren mehr als 20 state-of-the-art, open-source und proprietäre multimodale Modelle mit MMOU. Die Ergebnisse zeigen erhebliche Leistungslücken: Das beste Closed-Source-Modell erreicht nur 64,2 % Genauigkeit, während das stärkste Open-Source-Modell lediglich auf 46,8 % kommt. Unsere Ergebnisse unterstreichen die Herausforderungen des langformatigen omni-modalen Verstehens und zeigen, dass aktuelle Modelle häufig scheitern, selbst grundlegende Fähigkeiten in langen Videos anzuwenden. Durch eine detaillierte Analyse identifizieren wir weiterhin systematische Fehlermodi und liefern Einblicke darin, wo und warum aktuelle Modelle versagen.
Vortrainierte große Sprachmodelle (Large Language Models, LLM) weisen breite Fähigkeiten auf, doch für spezifische Aufgaben oder Domänen hängt das Erreichen höherer Genauigkeit und zuverlässigerer Schlussfolgerungen im Allgemeinen von einer Nachtrainierung durch Supervised Fine-Tuning (SFT) oder Reinforcement Learning (RL) ab. Obwohl sie oft als eigenständige Methoden betrachtet werden, zeigen jüngste theoretische und empirische Entwicklungen, dass SFT und RL eng miteinander verbunden sind. Diese Studie bietet eine umfassende und vereinheitlichte Perspektive auf die Nachtrainierung von LLMs mit SFT und RL. Zunächst geben wir einen detaillierten Überblick über beide Techniken und untersuchen ihre Ziele, algorithmischen Strukturen und Datenanforderungen. Anschließend analysieren wir systematisch ihr Zusammenspiel, betonen Frameworks, die SFT und RL integrieren, hybride Trainingspipelines und Methoden, die ihre komplementären Stärken nutzen. Gestützt auf einen repräsentativen Satz aktueller Anwendungsstudien aus den Jahren 2023 bis 2025 identifizieren wir aufkommende Trends, charakterisieren die rasante Hinwendung zu hybriden Nachtrainierungs-Paradigmen und destillieren zentrale Erkenntnisse, die klären, wann und warum jede Methode am effektivsten ist. Durch die Synthese theoretischer Einsichten, praktischer Methoden und empirischer Belege schafft diese Studie ein kohärentes Verständnis von SFT und RL innerhalb eines einheitlichen Rahmens und skizziert vielversprechende Richtungen für zukünftige Forschung in skalierbarer, effizienter und generalisierbarer LLM-Nachtrainierung.
Wie das Skalierungsgesetz für feinkörnige MoE-Systeme zeigt, verbessert sich die Modellleistung nicht mehr, sobald die Granularität der Zwischendimension den optimalen Schwellenwert überschreitet, was den weiteren Nutzen von feinkörnigen Designs in nur einer Dimension begrenzt. Um diesen Engpass zu überwinden, schlagen wir FineRMoE (FineR-Grained MoE) vor – eine Architektur, die das feinkörnige Experten-Design auf sowohl Zwischen- als auch Ausgabedimensionen ausdehnt, um die Expertenspezialisierung über die Ein-Dimension-Grenze hinaus zu steigern. Wir führen weiterhin ein zweistufiges sparsames Vorwärtsberechnungs-Paradigma und einen spezialisierten Routing-Mechanismus ein, um die Aktivierung zu steuern. Zusätzlich entwickeln wir, um die prohibitiv hohen Kosten für das Training von FineRMoE von Grund auf zu vermeiden, eine generalisierte Upcycling-Methode für einen kosteneffizienten Aufbau von FineRMoE. Umfangreiche Experimente belegen die überlegene Leistung von FineRMoE in zehn Standard-Benchmarks. Im Vergleich zur stärksten Baseline erzielt FineRMoE eine 6-fach höhere Parameter-Effizienz, eine 281-fach geringere Prefill-Latenz und einen 136-fach höheren Durchsatz beim Dekodieren während des Inferenzvorgangs.
Nach bedeutenden Fortschritten in der Text- und Bildgenerierung hat der Videobereich einen Aufschwung erlebt, der hochrealistische und steuerbare Sequenzen hervorbringt. Parallel zu diesen Entwicklungen werfen diese Modelle auch ernsthafte Bedenken hinsichtlich Fehlinformationen auf, was eine zuverlässige Erkennung synthetischer Videos zunehmend entscheidend macht. Bildbasierte Detektoren sind grundlegend limitiert, da sie pro Frame arbeiten und zeitliche Dynamiken ignorieren, während überwachte Video-Detektoren nur schlecht auf unbekannte Generatoren verallgemeinern – ein kritischer Nachteil angesichts der rasanten Entwicklung neuer Modelle. Diese Herausforderungen motivieren Zero-Shot-Ansätze, die synthetische Daten vermeiden und stattdessen Inhalte anhand von Statistiken echter Daten bewerten, was trainingsfreie, modellagnostische Erkennung ermöglicht. Wir stellen STALL vor, einen einfachen, trainingsfreien, theoretisch fundierten Detektor, der eine likelihood-basierte Bewertung für Videos bereitstellt und räumliche sowie zeitliche Evidenz innerhalb eines probabilistischen Frameworks gemeinsam modelliert. Wir evaluieren STALL anhand zweier öffentlicher Benchmarks und führen ComGenVid ein, einen neuen Benchmark mit modernsten generativen Modellen. STALL übertrifft durchgängig bisherige bild- und videobasierte Baseline-Methoden. Code und Daten sind unter https://omerbenhayun.github.io/stall-video verfügbar.
Einzelbildbeleuchtung ist hochgradig unterbestimmt: Kleine Beleuchtungsänderungen können große, nichtlineare Variationen in Schattierung, Schatten und Spiegelungen verursachen, während Geometrie und Materialien unbeobachtet bleiben. Bestehende diffusionsbasierte Ansätze verlassen sich entweder auf Intrinsic- oder G-Buffer-Pipelines, die dichte und anfällige Supervision erfordern, oder operieren rein im latenten Raum ohne physikalische Grundlage, was eine feinkörnige Steuerung von Richtung, Intensität und Farbe unzuverlässig macht. Wir beobachten, dass eine vollständige Intrinsic-Zerlegung für präzise Neubeleuchtung unnötig und redundant ist. Stattdessen sind sparsame, aber physikalisch aussagekräftige Hinweise, die anzeigen, wo sich die Beleuchtung ändern soll und wie Materialien reagieren sollten, ausreichend, um ein Diffusionsmodell zu führen. Basierend auf dieser Erkenntnis führen wir LightCtrl ein, das physikalische Priori auf zwei Ebenen integriert: einen Few-Shot-latenten Proxy-Encoder, der kompakte Material-Geometrie-Hinweise aus begrenzter PBR-Supervision extrahiert, und eine beleuchtungssensitive Maske, die empfindliche Beleuchtungsregionen identifiziert und den Denoiser zu schattierungsrelevanten Pixeln lenkt. Um knappe PBR-Daten auszugleichen, verfeinern wir den Proxy-Zweig mit einem DPO-basierten Ziel, das physikalische Konsistenz in den vorhergesagten Hinweisen erzwingt. Wir stellen außerdem ScaLight vor, einen großflächigen Objektdatensatz mit systematisch variierter Beleuchtung und vollständigen Kamera-Licht-Metadaten, der physikalisch konsistentes und kontrollierbares Training ermöglicht. In Objekt- und Szenenbenchmarks erreicht unsere Methode photometrisch präzise Neubeleuchtung mit akkurater kontinuierlicher Steuerung und übertrifft bisherige Diffusions- und Intrinsic-basierte Baseline-Methoden, einschließlich Steigerungen von bis zu +2,4 dB PSNR und 35 % niedrigerem RMSE bei kontrollierten Beleuchtungsänderungen.
Fernerkundungs-Weltmodelle zielen darauf ab, sowohl beobachtete Veränderungen zu erklären als auch plausible Zukunftszenarien vorherzusagen – zwei Aufgaben, die räumlich-zeitliche A-priori-Informationen teilen. Bisherige Methoden behandeln diese Aufgaben jedoch typischerweise separat, was den transfer zwischen den Aufgaben limitiert. Wir stellen RS-WorldModel vor, ein einheitliches Weltmodell für die Fernerkundung, das sowohl das Verständnis räumlich-zeitlicher Veränderungen als auch die textgesteuerte Vorhersage zukünftiger Szenen gemeinsam bewältigt. Zudem stellen wir RSWBench-1.1M vor, einen Datensatz mit 1,1 Millionen Einträgen und umfangreichen Sprachannotationen, der beide Aufgaben abdeckt. RS-WorldModel wird in drei Stufen trainiert: (1) Geo-Aware Generative Pre-training (GAGP) konditioniert die Vorhersage auf geografische und Aufnahmemetadaten; (2) Synergistic Instruction Tuning (SIT) trainiert Verständnis und Vorhersage gemeinsam; (3) Verifiable Reinforcement Optimization (VRO) verfeinert die Ausgaben mit überprüfbaren, aufgabenspezifischen Belohnungen. Mit nur 2B Parametern übertrifft RS-WorldModel Open-Source-Modelle, die bis zu 120-mal größer sind, in den meisten Metriken für räumlich-zeitliche Frage-Antwort-Aufgaben. Es erreicht einen FID-Wert von 43,13 bei der textgesteuerten Vorhersage zukünftiger Szenen und übertrifft damit alle Open-Source-Baselines sowie das Closed-Source-Modell Gemini-2.5-Flash Image (Nano Banana).
Kann KI bei wichtigen, ungelösten mathematischen Problemen Fortschritte erzielen? Große Sprachmodelle sind heute zu anspruchsvollem mathematischen und wissenschaftlichen Denken fähig, aber ob sie neuartige Forschung betreiben können, wird nach wie vor breit diskutiert und ist unzureichend erforscht. Wir stellen HorizonMath vor, einen Benchmark mit über 100 vorwiegend ungelösten Problemen aus acht Bereichen der computergestützten und angewandten Mathematik, kombiniert mit einem Open-Source-Evaluierungsframework für automatische Verifikation. Unser Benchmark zielt auf eine Problemklasse ab, bei der Entdeckung schwierig ist und bedeutungsvolle mathematische Einsicht erfordert, die Verifikation jedoch recheneffizient und einfach ist. Da diese Lösungen unbekannt sind, ist HorizonMath immun gegen Datenkontamination, und die meisten modernsten Modelle erzielen Ergebnisse nahe 0 %. Bestehende Forschungs-Benchmarks verlassen sich stattdessen auf formale Beweisverifikation oder manuelle Überprüfung, die beide in der Skalierung kostspielig sind. Mit dieser Plattform finden wir zwei Probleme, für die GPT 5.4 Pro Lösungen vorschlägt, die die besten publizierten Ergebnisse übertreffen und potenzielle neuartige Beiträge darstellen (vorbehaltlich Expertenüberprüfung). Wir veröffentlichen HorizonMath als eine offene Herausforderung und eine wachsende Community-Ressource, bei der korrekte Lösungen für Probleme in den ungelösten Problemklassen neuartige Ergebnisse in der mathematischen Literatur darstellen könnten.
Video Reasoning erfordert von Modellen, dass sie fragerelevante Evidenzen über mehrere Frames hinweg lokalisieren und verfolgen. Obwohl Reinforcement Learning (RL) mit verifizierbaren Belohnungen die Genauigkeit verbessert, kämpft es nach wie vor mit zuverlässiger räumlich-zeitlicher Verankerung während des Reasoning-Prozesses. Darüber hinaus stützt sich die Verbesserung der Verankerung typischerweise auf skalierte Trainingsdaten oder Wahrnehmungswerkzeuge zur Inferenzzeit, was die Annotationskosten oder Rechenkosten erhöht. Um diese Herausforderung zu bewältigen, schlagen wir VisonCoach vor, ein eingabeadaptives RL-Framework, das die räumlich-zeitliche Verankerung durch visuelle Prompts als Trainingsleitfaden verbessert. Während des RL-Trainings werden visuelle Prompts selektiv auf anspruchsvolle Eingaben angewendet, um fragerelevante Evidenzen zu verstärken und Ablenkungen zu unterdrücken. Das Modell internalisiert diese Verbesserungen dann durch Selbst-Distillation, wodurch verankertes Reasoning direkt auf Rohvideos ohne visuelle Prompts zur Inferenzzeit ermöglicht wird. VisonCoach besteht aus zwei Komponenten: (1) einem Visuellen Prompt-Selektor, der geeignete Prompt-Typen basierend auf Video und Frage vorhersagt, und (2) einem Räumlich-Zeitlichen Reasoner, der mit RL unter visueller Prompt-Führung und objektbewussten Verankerungsbelohnungen optimiert wird, welche Objektidentitätskonsistenz und Überlappung mehrerer Begrenzungsrahmen erzwingen. Umfangreiche Experimente zeigen, dass VisonCoach unter vergleichbaren Bedingungen state-of-the-art Leistung über diverse Video-Reasoning-, Video-Understanding- und temporale Verankerungs-Benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest und Charades-STA) hinweg erreicht, während ein einzelner effizienter Inferenzpfad ohne externe Werkzeuge beibehalten wird. Unsere Ergebnisse zeigen, dass visuelle Prompts während des Trainings verankertes Video-Reasoning verbessern, während Selbst-Distillation es dem Modell ermöglicht, diese Fähigkeit zu internalisieren, ohne Prompts zur Inferenzzeit zu benötigen.
Jüngste Fortschritte bei der trajektoriensteuerbaren Videogenerierung haben bemerkenswerte Erfolge erzielt. Bisherige Methoden nutzen hauptsächlich Adapter-basierte Architekturen für eine präzise Bewegungskontrolle entlang vordefinierter Trajektorien. Allerdings stützen sich all diese Methoden auf einen mehrstufigen Denoising-Prozess, was zu erheblicher Zeitredundanz und hohem Rechenaufwand führt. Während bestehende Video-Distillationsverfahren mehrstufige Generatoren erfolgreich in wenige Schritte überführen können, führt eine direkte Anwendung dieser Ansätze auf die trajektoriensteuerbare Videogenerierung zu einer spürbaren Verschlechterung sowohl der Videoqualität als auch der Trajektoriengenauigkeit. Um diese Lücke zu schließen, stellen wir FlashMotion vor, ein neuartiges Trainingsframework, das für die wenige Schritte umfassende, trajektoriensteuerbare Videogenerierung konzipiert ist. Wir trainieren zunächst einen Trajektorien-Adapter auf einem mehrstufigen Videogenerator, um eine präzise Trajektorienkontrolle zu erreichen. Anschließend wird der Generator durch Distillation in eine Version mit wenigen Schritten überführt, um die Videogenerierung zu beschleunigen. Schließlich feintunen wir den Adapter mit einer Hybridstrategie, die Diffusions- und Adversarial-Ziele kombiniert, um ihn an den wenige Schritte umfassenden Generator anzupassen und hochwertige, trajektoriengetreue Videos zu erzeugen. Für die Evaluierung führen wir FlashBench ein, einen Benchmark für die trajektoriensteuerbare Videogenerierung langer Sequenzen, der sowohl die Videoqualität als auch die Trajektoriengenauigkeit bei variierender Anzahl von Vordergrundobjekten misst. Experimente mit zwei Adapter-Architekturen zeigen, dass FlashMotion sowohl bestehende Video-Distillationsmethoden als auch frühere mehrstufige Modelle in Bezug auf visuelle Qualität und Trajektorienkonsistenz übertrifft.
Aktuelle Studien haben den Fluch der Tiefe in großen Sprachmodellen (LLMs) aufgezeigt, bei dem spätere Schichten weniger zum Lernen und zur Repräsentation beitragen als frühere Schichten. Diese Unterauslastung wird mit dem akkumulierten Anstieg der Varianz in Pre-Layer-Normalisierung in Verbindung gebracht, der tiefe Blöcke in Richtung eines nahezu identischen Verhaltens drängen kann. In dieser Arbeit zeigen wir, dass Sparsity – über Effizienzgewinne hinaus – als Regulator der Varianzausbreitung wirkt und dadurch die Tiefenauslastung verbessert. Unsere Untersuchung umfasst zwei Quellen von Sparsity: (i) implizite Sparsity, die aus Trainings- und Datenbedingungen entsteht, einschließlich Gewichtssparsity durch Weight Decay und Aufmerksamkeitssparsity durch lange Kontextinputs; und (ii) explizite Sparsity, die durch Architekturdesign erzwungen wird, einschließlich Key/Value-Sharing-Sparsity in Grouped-Query-Attention und Expert-Activation-Sparsity in Mixture-of-Experts. Unsere Behauptung wird umfassend durch kontrollierte Tiefenskalierexperimente und gezielte Eingriffe zur Schichteneffektivität gestützt. In allen Settings beobachten wir einen konsistenten Zusammenhang: Sparsity verbessert die Schichtenauslastung durch Reduzierung der Ausgangsvarianz und Förderung funktionaler Differenzierung. Letztlich fassen wir unsere Erkenntnisse in einer praktischen Faustregel für das Training tiefeneffektiver LLMs zusammen, die eine bemerkenswerte Verbesserung der Genauigkeit um 4,6 % bei Downstream-Aufgaben erzielt. Unsere Ergebnisse zeigen, dass Sparsity, die natürlich aus Standard-Designentscheidungen entsteht, ein bisher übersehener Schlüsselmechanismus für effektives Tiefenscaling in LLMs ist. Code ist verfügbar unter https://github.com/pUmpKin-Co/SparsityAndCoD.
Embodied KI-Agenten benötigen zunehmend die parallele Ausführung mehrerer Aufgaben wie Manipulation, Konversation und Gedächtniskonstruktion aus gemeinsamen Beobachtungen unter unterschiedlichen Zeitbeschränkungen. Neuere Mixture-of-Transformers (MoT) Vision-Language-Action-Modelle (VLAs) unterstützen solche heterogenen Ausgaben zwar architektonisch, doch bestehende Inferenzsysteme erreichen aufgrund redundanter Berechnungen und Ressourcenkonflikten keine effiziente Multi-Task-Parallelität für On-Device-Bereitstellung. Wir identifizieren die isolierte KV-Cache-Verwaltung als Hauptursache. Zur Lösung schlagen wir eine vereinheitlichte KV-Cache-Verwaltung vor, ein Inferenzparadigma, das den KV-Cache als shared Resource erster Klasse über Aufgaben und Zeit hinweg behandelt. Diese Abstraktion ermöglicht zwei Schlüsseloptimierungen: KV-Sharing zwischen Aufgaben eliminiert redundantes Prefilling gemeinsamer Beobachtungen, während Continuous Batching über Rahmen hinweg die Sprachdekodierung variabler Länge von der Aktionsgenerierung mit fester Rate über Steuerungszyklen entkoppelt. Wir implementieren dieses Paradigma für π_{0.5}, das beliebteste MoT-VLA, und evaluieren es unter repräsentativen Robotikkonfigurationen. OxyGen erreicht bis zu 3,7-fache Beschleunigung gegenüber isolierter Ausführung und liefert gleichzeitig über 200 Token/s Sprachdurchsatz und 70 Hz Aktionsfrequenz ohne Qualitätseinbußen bei den Aktionen.
Die Erzeugung präziser Glyphen für das visuelle Textrendering ist entscheidend, aber herausfordernd. Bestehende Methoden verbessern das Textrendering typischerweise durch Training mit einer großen Menge hochwertiger Szenentextbilder, doch die begrenzte Abdeckung von Glyphenvarianten und übermäßige Stilisierung beeinträchtigen oft die Glyphengenauigkeit, insbesondere bei komplexen oder domänenfremden Zeichen. Einige Methoden nutzen bestärkendes Lernen, um dieses Problem zu mildern, doch deren Belohnungsmodelle basieren meist auf Texterkennungssystemen, die unempfindlich gegenüber feinkörnigen Glyphenfehlern sind, sodass Bilder mit falschen Glyphen dennoch hohe Belohnungen erhalten können. Inspiriert von Direct Preference Optimization (DPO) schlagen wir GlyphPrinter vor, eine präferenzbasierte Textrendering-Methode, die die Abhängigkeit von expliziten Belohnungsmodellen eliminiert. Allerdings modelliert das standardmäßige DPO-Ziel nur die Gesamtpräferenz zwischen zwei Stichproben, was für visuelles Textrendering unzureichend ist, da Glyphenfehler typischerweise in lokalisierten Regionen auftreten. Um dieses Problem zu adressieren, erstellen wir den GlyphCorrector-Datensatz mit Annotationen auf Regionsebene für Glyphenpräferenzen und schlagen Region-Grouped DPO (R-GDPO) vor, ein regionsbasiertes Ziel, das Inter- und Intra-Stichproben-Präferenzen über annotierte Regionen optimiert und die Glyphengenauigkeit erheblich verbessert. Darüber hinaus führen wir Regional Reward Guidance ein, eine Inferenzstrategie, die aus einer optimalen Verteilung mit kontrollierbarer Glyphengenauigkeit sampelt. Umfangreiche Experimente zeigen, dass das vorgeschlagene GlyphPrinter-System bestehende Methoden in der Glyphengenauigkeit übertrifft und dabei ein günstiges Gleichgewicht zwischen Stilisierung und Präzision beibehält.
Aktuelle Video-Diffusionsmodelle haben bemerkenswerte Fortschritte in der visuellen Qualität erzielt, doch eine präzise, fein abgestufte Steuerung bleibt ein zentraler Engpass, der die praktische Anpassbarkeit für die Inhaltserstellung einschränkt. Für KI-Videocreators sind drei Steuerungsformen entscheidend: (i) Szenenkomposition, (ii) multi-view-konsistente Subjektanpassung und (iii) Kameraposen- oder Objektbewegungsanpassung. Bestehende Methoden behandeln diese Dimensionen typischerweise isoliert, mit begrenzter Unterstützung für Multi-View-Subjektsynthese und Identitätserhaltung unter beliebigen Pose-Änderungen. Dieser Mangel an einer einheitlichen Architektur erschwert die Unterstützung von vielseitigen, gemeinsam steuerbaren Videos. Wir stellen Tri-Prompting vor, ein einheitliches Framework und Zwei-Stufen-Trainingsparadigma, das Szenenkomposition, Multi-View-Subjektkonsistenz und Bewegungssteuerung integriert. Unser Ansatz nutzt ein Dual-Condition-Bewegungsmodul, das von 3D-Tracking-Punkten für Hintergrundszenen und heruntergerechneten RGB-Cues für Vordergrundsubjekte angetrieben wird. Um ein Gleichgewicht zwischen Steuerbarkeit und visueller Realitätstreue zu gewährleisten, schlagen wir weiterhin einen Inferenz-ControlNet-Skalenplan vor. Tri-Prompting unterstützt neuartige Workflows, einschließlich 3D-bewusster Subjekteinfügung in beliebige Szenen und Manipulation bestehender Subjekte in einem Bild. Experimentelle Ergebnisse zeigen, dass Tri-Prompting spezialisierte Baseline-Methoden wie Phantom und DaS in Bezug auf Multi-View-Subjektidentität, 3D-Konsistenz und Bewegungsgenauigkeit signifikant übertrifft.
In dieser Arbeit untersuchen wir die Diffundierbarkeit (Lernfähigkeit) von variationalen Autoencodern (VAE) bei latenter Diffusion. Zunächst zeigen wir, dass Diffusion im Pixelraum, die mit einem MSE-Ziel trainiert wird, inhärent darauf ausgelegt ist, niedrige und mittlere räumliche Frequenzen zu lernen, und dass die Power-Law-Leistungsspektraldichte (PSD) natürlicher Bilder diesen Bias wahrnehmungsmäßig vorteilhaft macht. Motiviert durch dieses Ergebnis schlagen wir die Spektrum-Anpassungs-Hypothese vor: Latente Repräsentationen mit überlegener Diffundierbarkeit sollten (i) einer abgeflachten Power-Law-PSD folgen (Encoding Spectrum Matching, ESM) und (ii) die semantische Frequenz-zu-Frequenz-Korrespondenz durch den Decoder erhalten (Decoding Spectrum Matching, DSM). In der Praxis wenden wir ESM an, indem wir die PSD zwischen Bildern und latenten Repräsentationen angleichen, und DSM durch gemeinsame spektrale Maskierung mit frequenzabgestimmter Rekonstruktion. Wichtig ist, dass die Spektrum-Anpassung eine einheitliche Sichtweise bietet, die frühere Beobachtungen von übermäßig verrauschten oder übermäßig geglätteten latenten Repräsentationen klärt und mehrere neuere Methoden (z.B. VA-VAE, EQ-VAE) als Spezialfälle interpretiert. Experimente deuten darauf hin, dass die Spektrum-Anpassung eine überlegene Diffusionsgenerierung auf den CelebA- und ImageNet-Datensätzen liefert und bisherige Ansätze übertrifft. Abschließend erweitern wir die spektrale Sichtweise auf die Repräsentationsausrichtung (REPA): Wir zeigen, dass die gerichtete spektrale Energie der Zielrepräsentation entscheidend für REPA ist, und schlagen eine auf DoG basierende Methode vor, um die Leistung von REPA weiter zu verbessern. Unser Code ist verfügbar unter https://github.com/forever208/SpectrumMatching.
Mit der zunehmenden Verbreitung von KI-Agenten als langlaufende Systeme wird es unerlässlich, autonom angepasste Software zu konstruieren und kontinuierlich weiterzuentwickeln, um Interaktionen in dynamischen Umgebungen zu ermöglichen. Bisherige Benchmarks bewerten Agenten jedoch anhand isolierter, einmaliger Programmieraufgaben und vernachlässigen dabei die zeitlichen Abhängigkeiten und die technische Schuld, die der Evolution realer Software inhärent sind. Um diese Lücke zu schließen, stellen wir DeepCommit vor: eine agentenbasierte Pipeline, die verifizierbare Meilenstein-DAGs aus verrauschten Commit-Logs rekonstruiert, wobei Meilensteine als semantisch kohäsive Entwicklungsziele definiert sind. Diese ausführbaren Sequenzen ermöglichen EvoClaw, einen neuartigen Benchmark, der von Agenten verlangt, die Systemintegrität aufrechtzuerhalten und die Fehlerakkumulation zu begrenzen – Dimensionen langfristiger Softwareevolution, die in aktuellen Benchmarks weitgehend fehlen. Unsere Evaluation von 12 Frontier-Modellen über 4 Agenten-Frameworks hinweg offenbart eine kritische Schwachstelle: Die Gesamtleistungswerte fallen signifikant von >80 % bei isolierten Aufgaben auf höchstens 38 % in kontinuierlichen Szenarien ab, was das erhebliche Unvermögen der Agenten im Umgang mit langfristiger Wartung und Fehlerfortpflanzung aufzeigt.
Die Stellungnahmen des Federal Open Market Committee (FOMC) sind eine wichtige Quelle für geldpolitische Informationen, und selbst subtile Änderungen in deren Formulierung können die globalen Finanzmärkte bewegen. Eine zentrale Aufgabe besteht daher darin, die in diesen Texten vermittelte hawkische bzw. dovische Haltung zu messen. Bisherige Ansätze behandeln die Erkennung der Haltung typischerweise als ein Standard-Klassifikationsproblem, bei dem jede Stellungnahme isoliert bewertet wird. Die Interpretation geldpolitischer Kommunikation ist jedoch inhärent relativ: Marktreaktionen hängen nicht nur vom Ton einer Stellungnahme ab, sondern auch davon, wie sich dieser Ton von Sitzung zu Sitzung verschiebt. Wir stellen Delta-Consistent Scoring (DCS) vor, ein annotierungsfreies Framework, das eingefrorene Repräsentationen großer Sprachmodelle (LLM) durch die gemeinsame Modellierung absoluter Haltung und relativer Verschiebungen zwischen den Sitzungen auf kontinuierliche Haltungswerte abbildet. Anstatt sich auf manuelle Hawkish-Dovish-Labels zu verlassen, nutzt DCS aufeinanderfolgende Sitzungen als Quelle für Selbstüberwachung. Es lernt einen absoluten Haltungswert für jede Stellungnahme und einen relativen Verschiebungswert zwischen aufeinanderfolgenden Stellungnahmen. Ein Delta-Konsistenz-Ziel fördert die Übereinstimmung von Änderungen der absoluten Werte mit den relativen Verschiebungen. Dies ermöglicht es DCS, einen zeitlich kohärenten Haltungspfad ohne manuelle Labels zu rekonstruieren. Über vier LLM-Backbones hinweg übertrifft DCS durchgängig überwachte Probes und LLM-as-Judge-Baselines und erreicht bis zu 71,1 % Genauigkeit bei der hawkish-dovish Klassifikation auf Satzebene. Die resultierenden Werte auf Sitzungsebene sind auch ökonomisch bedeutsam: Sie korrelieren stark mit Inflationsindikatoren und weisen eine signifikante Assoziation mit Bewegungen der Treasury-Renditen auf. Insgesamt deuten die Ergebnisse darauf hin, dass LLM-Repräsentationen geldpolitische Signale codieren, die durch relative temporale Struktur rekonstruiert werden können.
Vision-Language-Action (VLA)-Modelle zeichnen sich bei statischen Manipulationsaufgaben aus, haben jedoch in dynamischen Umgebungen mit sich bewegenden Zielobjekten Schwierigkeiten. Diese Leistungslücke resultiert hauptsächlich aus einem Mangel an Datensätzen für dynamische Manipulation und der Abhängigkeit gängiger VLA-Modelle von Einzelbildbeobachtungen, was ihre Fähigkeiten zur raumzeitlichen Inferenz einschränkt. Um dieses Problem zu adressieren, stellen wir DOMINO vor – einen groß angelegten Datensatz und Benchmark für generalisierbare dynamische Manipulation. DOMINO umfasst 35 Aufgaben mit hierarchisch steigender Komplexität, über 110.000 Expertentrajektorien und eine mehrdimensionale Evaluationssuite. Mittels umfassender Experimente evaluieren wir systematisch bestehende VLA-Modelle für dynamische Aufgaben, erforschen effektive Trainingsstrategien für dynamisches Situationsbewusstsein und validieren die Generalisierbarkeit dynamischer Daten. Darüber hinaus schlagen wir PUMA vor, eine dynamikbewusste VLA-Architektur. Durch die Integration von szenenzentriertem historischem optischem Fluss und spezialisierten Welt-Queries, die objektzentrierte Zukunftszustände implizit vorhersagen, koppelt PUMA verlaufsbewusste Wahrnehmung mit kurzfristiger Prädiktion. Die Ergebnisse zeigen, dass PUMA State-of-the-Art-Leistung erreicht und eine absolute Steigerung der Erfolgsrate um 6,3 % gegenüber Baseline-Modellen erzielt. Zudem demonstrieren wir, dass das Training mit dynamischen Daten robuste raumzeitliche Repräsentationen fördert, die auf statische Aufgaben übertragbar sind. Der gesamte Code und die Daten sind unter https://github.com/H-EmbodVis/DOMINO verfügbar.
Die Konzeptanpassung bindet typischerweise seltene Token an ein Zielkonzept. Leider weisen diese Ansätze oft eine instabile Leistung auf, da die Vortrainingsdaten nur selten diese seltenen Token enthalten. Gleichzeitig können diese seltenen Token das inhärente Wissen des Zielkonzepts nicht vermitteln. Daher führen wir Knowledge-aware Concept Customization ein, eine neuartige Aufgabe, die darauf abzielt, diverses textuelles Wissen an visuelle Zielkonzepte zu binden. Diese Aufgabe erfordert, dass das Modell das Wissen innerhalb des Textprompts identifiziert, um eine hochpräzise angepasste Generierung durchzuführen. Gleichzeitig sollte das Modell effizient das gesamte textuelle Wissen an das Zielkonzept binden. Daher schlagen wir MoKus vor, einen neuartigen Rahmen für wissensbasierte Konzeptanpassung. Unser Rahmenkonzept stützt sich auf eine Schlüsselbeobachtung: den cross-modalen Wissenstransfer, bei dem sich die Modifikation von Wissen in der Textmodalität während der Generierung natürlich auf die visuelle Modalität überträgt. Inspiriert durch diese Beobachtung umfasst MoKus zwei Stufen: (1) Im visuellen Konzeptlernen erlernen wir zunächst die Ankerrepräsentation, um die visuellen Informationen des Zielkonzepts zu speichern. (2) In der textuellen Wissensaktualisierung aktualisieren wir die Antwort auf die Wissensabfragen auf die Ankerrepräsentation, was eine hochpräzise angepasste Generierung ermöglicht. Um unsere vorgeschlagene Methode MoKus für diese neue Aufgabe umfassend zu evaluieren, führen wir den ersten Benchmark für wissensbasierte Konzeptanpassung ein: KnowCusBench. Umfangreiche Auswertungen haben gezeigt, dass MoKus state-of-the-art Methoden übertrifft. Darüber hinaus ermöglicht der cross-modale Wissenstransfer eine einfache Erweiterung von MoKus auf andere wissensbasierte Anwendungen wie die Erstellung virtueller Konzepte und Konzeptlöschung. Wir zeigen auch die Fähigkeit unserer Methode, Verbesserungen auf Benchmarks für Weltwissen zu erzielen.
Wir stellen ScienceClaw + Infinite vor, ein Framework für autonome wissenschaftliche Untersuchungen, in dem unabhängige Agenten Forschung ohne zentrale Koordination betreiben und jeder Mitwirkende neue Agenten in einem gemeinsamen Ökosystem bereitstellen kann. Das System basiert auf drei Komponenten: einer erweiterbaren Registrierung von über 300 interoperablen wissenschaftlichen Fähigkeiten, einer Artefaktschicht, die die vollständige computergestützte Herkunft als gerichteter azyklischer Graph (DAG) bewahrt, und einer strukturierten Plattform für agentenbasierte wissenschaftliche Diskurse mit nachverfolgungsbewusster Steuerung. Agenten wählen Werkzeuge basierend auf ihren wissenschaftlichen Profilen aus und verketten diese, erzeugen unveränderliche Artefakte mit typisierten Metadaten und Elternherkunft und senden unbefriedigte Informationsbedürfnisse an einen gemeinsamen globalen Index. Der ArtifactReactor ermöglicht planerlose Koordination: Gleichgestellte Agenten entdecken und erfüllen offene Bedürfnisse durch druckbasierte Bewertung, während Schemaüberschneidungsabgleich Mehrfacheltersynthese über unabhängige Analysen hinweg auslöst. Eine autonome Mutationsschicht beschneidet aktiv den expandierenden Artefakt-DAG, um konfligierende oder redundante Arbeitsabläufe aufzulösen, während persistenter Speicher es Agenten ermöglicht, kontinuierlich auf komplexen epistemischen Zuständen über mehrere Zyklen hinweg aufzubauen. Infinite wandelt diese Ausgaben durch strukturierte Beiträge, Herkunftsansichten und maschinenlesbare Diskursbeziehungen in überprüfbare wissenschaftliche Aufzeichnungen um, wobei Community-Feedback nachfolgende Untersuchungszyklen lenkt. In vier autonomen Untersuchungen – Peptid-Design für den Somatostatin-Rezeptor SSTR2, Screening leichter schlagfester Keramiken, domänenübergreifende Resonanzbrücken zwischen Biologie, Materialien und Musik sowie formale Analogiebildung zwischen urbaner Morphologie und Korngrenzenentwicklung – demonstriert das Framework heterogene Werkzeugverkettung, emergente Konvergenz unter unabhängig operierenden Agenten und nachvollziehbare Schlussfolgerungen von der Rohberechnung bis zur veröffentlichten Erkenntnis.
Die Dokumentenanalyse, eine grundlegende aber entscheidende Aufgabe im Bereich Computer Vision, wird durch Vision-Language-Modelle (VLMs) revolutioniert. Allerdings stellt die diesen Modellen inhärente autoregressive (AR) Dekodierung einen erheblichen Engpass dar, der die Parsing-Geschwindigkeit stark begrenzt. In diesem Beitrag schlagen wir Parallel-Token Prediction (PTP) vor, eine anschlussfähige, modellagnostische und einfache, aber effektive Methode, die es VLMs ermöglicht, mehrere zukünftige Tokens parallel mit verbesserter Stichprobeneffizienz zu generieren. Konkret fügen wir einige lernbare Tokens in die Eingabesequenz ein und entwerfen entsprechende Trainingsziele, um das Modell mit Fähigkeiten zur parallelen Dekodierung für die Dokumentenanalyse auszustatten. Darüber hinaus entwickeln wir für ein effektives Training eine umfassende Daten-Generierungspipeline, die effizient großvolumige, hochwertige Trainingsdaten für die VLM-Dokumentenanalyse erzeugt. Umfangreiche Experimente auf OmniDocBench und olmOCR-bench belegen, dass unsere Methode nicht nur die Dekodiergeschwindigkeit signifikant steigert (1,6x-2,2x), sondern auch Modellhalluzinationen reduziert und starke Generalisierungsfähigkeiten aufweist.
Die Interpretation der internen Entscheidungsprozesse von Vision-Language-Modellen ist entscheidend für den Einsatz von KI in sicherheitskritischen Bereichen. Konzeptbasierte Erklärbarkeit bietet eine menschenorientierte Betrachtungsweise, indem sie das Verhalten eines Modells durch semantisch bedeutungsvolle Komponenten abbildet. Bestehende Methoden beschränken sich jedoch weitgehend auf Bilder und vernachlässigen cross-modale Interaktionen. Text-Bild-Einbettungen, wie sie beispielsweise von CLIP erzeugt werden, leiden unter einer Modalitätslücke, bei der visuelle und textuelle Merkmale unterschiedlichen Verteilungen folgen, was die Interpretierbarkeit einschränkt. Die Kanonische Korrelationsanalyse (CCA) bietet einen prinzipienbasierten Ansatz, um Merkmale aus verschiedenen Verteilungen auszurichten, wurde jedoch bisher nicht für eine multimodale konzeptbasierte Analyse genutzt. Wir zeigen, dass die Zielfunktionen von CCA und InfoNCE eng verwandt sind, sodass die Optimierung von CCA implizit auch InfoNCE optimiert. Dies bietet einen einfachen, trainingsfreien Mechanismus zur Verbesserung der cross-modalen Ausrichtung, ohne das vortrainierte InfoNCE-Ziel zu beeinflussen. Ausgehend von dieser Beobachtung kombinieren wir konzeptbasierte Erklärbarkeit mit CCA und führen Concept CCA (CoCCA) ein – ein Framework, das cross-modale Einbettungen ausrichtet und gleichzeitig eine interpretierbare Konzeptzerlegung ermöglicht. Wir erweitern diesen Ansatz weiter und schlagen Sparse Concept CCA (SCoCCA) vor, das Sparsity erzwingt, um stärker entflochtene und diskriminativere Konzepte zu erzeugen, was verbesserte Aktivierungs-, Ablations- und semantische Manipulationsanalysen ermöglicht. Unser Ansatz verallgemeinert konzeptbasierte Erklärungen auf multimodale Einbettungen und erzielt state-of-the-art Leistung in der Konzeptentdeckung, was durch Rekonstruktions- und Manipulationsaufgaben wie Konzeptablation belegt wird.
Virtual Try-On (VTON) hat die Visualisierung einzelner Kleidungsstücke vorangetrieben, doch in der realen Modebranche stehen komplette Outfits mit mehreren Kleidungsstücken, Accessoires, fein granularen Kategorien, Schichtung und vielfältigen Stilen im Mittelpunkt – was über die Möglichkeiten aktueller VTON-Systeme hinausgeht. Bestehende Datensätze sind kategorisch eingeschränkt und weisen eine geringe Outfit-Vielfalt auf. Wir stellen Garments2Look vor, den ersten groß angelegten multimodalen Datensatz für outfitbasiertes VTON. Er umfasst 80.000 Kleidungsstücke-zu-Outfit-Paare über 40 Hauptkategorien und 300+ feingranulare Unterkategorien. Jedes Paar enthält ein Outfit mit 3–12 Referenzbildern der Kleidungsstücke (Durchschnitt 4,48), ein Bild eines Models, das das Outfit trägt, sowie detaillierte textuelle Annotationen zu den Items und zum Try-On. Um Authentizität und Vielfalt in Einklang zu bringen, schlagen wir eine Synthese-Pipeline vor. Diese beinhaltet die heuristische Konstruktion von Outfit-Listen vor der Generierung der Try-On-Ergebnisse, wobei der gesamte Prozess einer strengen automatischen Filterung und menschlichen Validierung unterzogen wird, um die Datenqualität zu gewährleisten. Um die Aufgabenschwierigkeit zu untersuchen, passen wir State-of-the-Art-VTON-Methoden und allgemeine Bildbearbeitungsmodelle an, um Baseline-Ergebnisse zu etablieren. Die Ergebnisse zeigen, dass aktuelle Methoden Schwierigkeiten haben, komplette Outfits nahtlos anzulegen sowie die korrekte Schichtung und Stilistik zu inferieren, was zu Fehlausrichtungen und Artefakten führt.
Full-Stream Text-to-Speech (TTS) für interaktive Systeme muss mit minimaler Verzögerung beginnen zu sprechen und dabei steuerbar bleiben, während der Text inkrementell eintrifft. Wir stellen VoXtream2 vor, ein Zero-Shot Full-Stream TTS-Modell mit dynamischer Sprechgeschwindigkeitssteuerung, die während der Äußerung laufend aktualisiert werden kann. VoXtream2 kombiniert einen Distribution-Matching-Mechanismus für Dauerzustände mit Classifier-Free Guidance über Konditionierungssignale, um die Steuerbarkeit und Synthesequalität zu verbessern. Prompt-Text-Masking ermöglicht eine textlose Audio-Prompting, was die Notwendigkeit einer Prompt-Transkription entfällt. In standardmäßigen Zero-Shot-Benchmarks und einem speziellen Testset für die Sprechgeschwindigkeit erzielt VoXtream2 wettbewerbsfähige objektive und subjektive Ergebnisse im Vergleich zu öffentlichen Baseline-Modellen, trotz eines kleineren Modells und weniger Trainingsdaten. Im Full-Stream-Modus läuft es 4-mal schneller als Echtzeit mit einer Latenz des ersten Pakets von 74 ms auf einer Consumer-GPU.
Jüngste Fortschritte in der diskreten Bildgenerierung haben gezeigt, dass eine Vergrößerung der VQ-Codebuchgröße die Rekonstruktionstreue erheblich verbessert. Das Training generativer Modelle mit einem großen VQ-Codebuch bleibt jedoch herausfordernd, da typischerweise eine größere Modellgröße und ein längerer Trainingszeitraum erforderlich sind. In dieser Arbeit schlagen wir die Minimierung der stochastischen Nachbar-Cross-Entropy (SNCE) vor, ein neuartiges Trainingsziel, das entwickelt wurde, um die Optimierungsprobleme von diskreten Bildgeneratoren mit großem Codebuch zu adressieren. Anstatt das Modell mit einem harten One-Hot-Zielwert zu steuern, konstruiert SNCE eine weiche kategorische Verteilung über eine Menge benachbarter Tokens. Die jedem Token zugewiesene Wahrscheinlichkeit ist proportional zur Nähe zwischen seinem Code-Embedding und dem Ground-Truth-Bildembedding, was das Modell dazu anregt, semantisch bedeutsame geometrische Strukturen im quantisierten Embedding-Raum zu erfassen. Wir führen umfangreiche Experimente in den Bereichen klassenbedingte ImageNet-256-Generierung, großskalige Text-zu-Bild-Synthese und Bildbearbeitungsaufgaben durch. Die Ergebnisse zeigen, dass SNCE im Vergleich zu standardmäßigen Cross-Entropy-Zielen die Konvergenzgeschwindigkeit und die allgemeine Generierungsqualität signifikant verbessert.
Klinische Frage-Antwort-Systeme auf Basis elektronischer Gesundheitsakten (EHRs) können Klinikern und Patienten helfen, relevante medizinische Informationen effizienter zu erschließen. Allerdings setzen viele aktuelle Ansätze auf große cloudbasierte Modelle, die aufgrund von Datenschutzanforderungen und Rechenleistungsbedarf nur schwer in klinischen Umgebungen einsetzbar sind. In dieser Arbeit untersuchen wir, wie weit EHR-gestütztes Question Answering vorangetrieben werden kann, wenn es auf einen einzelnen Laptop beschränkt ist. Wir nehmen an allen vier Teilaufgaben des ArchEHR-QA-2026-Shared-Tasks teil und evaluieren mehrere Ansätze, die auf handelsüblicher Hardware lauffähig sind. Alle Experimente werden lokal ohne externe APIs oder Cloud-Infrastruktur durchgeführt. Unsere Ergebnisse zeigen, dass solche Systeme wettbewerbsfähige Leistungen in den Leaderboards des Shared Tasks erzielen können. Insbesondere schneiden unsere Einreichungen in zwei Teilaufgaben überdurchschnittlich ab, und wir beobachten, dass kleinere Modelle bei geeigneter Konfiguration an die Leistung deutlich größerer Systeme heranreichen können. Diese Erkenntnisse legen nahe, dass datenschutzerhaltende EHR-QA-Systeme, die vollständig lokal laufen, mit aktuellen Modellen und Standardhardware realisierbar sind. Der Quellcode ist unter https://github.com/ibrahimey/ArchEHR-QA-2026 verfügbar.