papers.description
Policy-basiertes Reinforcement Learning spielt derzeit eine wichtige Rolle bei der Verbesserung von LLMs (Large Language Models) in mathematischen Denkaufgaben. Allerdings berücksichtigen bestehende rollout-basierte Reinforcement-Learning-Methoden (GRPO, DAPO, GSPO usw.) nicht explizit die Lernfähigkeit von LLMs für Proben unterschiedlicher Schwierigkeitsgrade, was im Widerspruch zum menschlichen kognitiven Prozess bei mathematischen Denkaufgaben steht, der von einfach zu schwierig verläuft. Intuitiv stellen wir fest, dass die Varianz der Belohnung der Rollout-Gruppe in RLVR teilweise die Schwierigkeit der aktuellen Probe für LLMs widerspiegelt. Proben, die zu einfach oder zu schwierig sind, weisen eine geringere Varianz auf, während Proben mit mittlerem Schwierigkeitsgrad eine höhere Varianz aufweisen. Basierend darauf schlagen wir VCRL vor, ein Curriculum-Reinforcement-Learning-Framework, das die Schwierigkeit der Trainingsproben dynamisch auf der Grundlage der Varianz der Gruppenbelohnungen steuert. Experimente auf fünf mathematischen Benchmarks und zwei Modellen zeigen die Vorteile von VCRL gegenüber den aktuellen LLM-RL-Baselines auf.
Große multimodale Reasoning-Modelle haben rasante Fortschritte erzielt, doch ihre Weiterentwicklung wird durch zwei wesentliche Einschränkungen behindert: das Fehlen offener, groß angelegter, hochwertiger Daten mit langen Denkketten (Chain-of-Thought, CoT) und die Instabilität von Reinforcement-Learning (RL)-Algorithmen im Post-Training. Group Relative Policy Optimization (GRPO), das Standardframework für RL-Feintuning, neigt zum Verschwinden von Gradienten bei geringer Varianz der Belohnungen, was Optimierungssignale schwächt und die Konvergenz beeinträchtigt. Diese Arbeit leistet drei Beiträge: (1) Wir schlagen Variance-Aware Sampling (VAS) vor, eine Datenauswahlstrategie, die durch den Variance Promotion Score (VPS) geleitet wird und Ergebnisvarianz mit Trajektorienvielfalt kombiniert, um die Belohnungsvarianz zu fördern und die Policy-Optimierung zu stabilisieren. (2) Wir veröffentlichen groß angelegte, sorgfältig kuratierte Ressourcen mit ~1,6 Millionen langen CoT-Cold-Start-Daten und ~15.000 RL-Frage-Antwort-Paaren, die Qualität, Schwierigkeitsgrad und Vielfalt gewährleisten, sowie einen vollständig reproduzierbaren End-to-End-Trainingscode. (3) Wir stellen eine Familie multimodaler Reasoning-Modelle in verschiedenen Größenordnungen als Open Source zur Verfügung und etablieren damit standardisierte Baselines für die Community. Experimente auf mathematischen Reasoning-Benchmarks demonstrieren die Wirksamkeit sowohl der kuratierten Daten als auch des vorgeschlagenen VAS. Umfassende Ablationsstudien und Analysen liefern weitere Einblicke in die Beiträge der einzelnen Komponenten. Zusätzlich zeigen wir theoretisch, dass die Belohnungsvarianz die erwartete Policy-Gradienten-Größe nach unten begrenzt, wobei VAS als praktischer Mechanismus dient, um diese Garantie zu realisieren. Unser Code, die Daten und Checkpoints sind unter https://github.com/LengSicong/MMR1 verfügbar.
Wir präsentieren ein wissenschaftliches Reasoning-Foundation-Modell, das natürliche Sprache mit heterogenen wissenschaftlichen Repräsentationen in Einklang bringt. Das Modell wurde auf einem 206B-Token-Korpus vortrainiert, der wissenschaftliche Texte, reine Sequenzen und Sequenz-Text-Paare umfasst, und anschließend durch SFT auf 40M Anweisungen ausgerichtet, wobei ein gekühlter Start mit Bootstrapping verwendet wurde, um langkettiges Denken (Chain-of-Thought) zu fördern, sowie Reinforcement Learning mit aufgaben spezifischer Belohnungsformung, um gezieltes wissenschaftliches Reasoning zu etablieren. Es unterstützt vier Fähigkeitsfamilien, die bis zu 103 Aufgaben in verschiedenen Workflows abdecken: (i) treue Übersetzung zwischen Text und wissenschaftlichen Formaten, (ii) Text-/Wissensextraktion, (iii) Eigenschaftsvorhersage, (iv) Eigenschaftsklassifizierung, (v) bedingte und unbedingte Sequenzgenerierung und -gestaltung. Im Vergleich zu spezialisierten Systemen erweitert unser Ansatz die Abdeckung von Anweisungen, verbessert die domänenübergreifende Generalisierung und erhöht die Genauigkeit. Wir erläutern die Datenkuratierung und das Training und zeigen, dass fachübergreifendes Lernen die Übertragbarkeit und die Zuverlässigkeit in nachgelagerten Aufgaben stärkt. Das Modell, die Instruktions-Tuning-Datensätze und der Evaluationscode sind unter https://huggingface.co/SciReason und https://github.com/open-sciencelab/SciReason quelloffen verfügbar.
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die agentenbasierten Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Bei langfristigen und mehrstufigen Agentenaufgaben leiden bestehende Ansätze, die ausschließlich durch Ergebnisbelohnungen gesteuert werden, häufig unter dem Problem der spärlichen Überwachung. Um diese Herausforderung zu bewältigen, schlagen wir Tree-based Group Relative Policy Optimization (Tree-GRPO) vor, eine gruppenbasierte RL-Methode, die auf Baumsuche basiert, wobei jeder Baumknoten den vollständigen Interaktionsschritt des Agenten darstellt. Durch das Teilen gemeinsamer Präfixe erhöht die Baumsuche die Anzahl der Rollouts, die innerhalb eines festen Budgets von Token oder Tool-Aufrufen erreichbar sind. Darüber hinaus stellen wir fest, dass die baumstrukturierte Trajektorie die Konstruktion schrittweiser Prozessüberwachungssignale ermöglicht, selbst wenn nur die Ergebnisbelohnung verwendet wird. Basierend darauf schätzt Tree-GRPO die gruppenbezogenen relativen Vorteile sowohl auf intra- als auch auf inter-Baum-Ebene. Durch theoretische Analysen zeigen wir, dass das Ziel der gruppenbezogenen Policy-Optimierung auf intra-Baum-Ebene dem des schrittweisen direkten Präferenzlernens entspricht. Experimente über 11 Datensätze und 3 Arten von QA-Aufgaben demonstrieren die Überlegenheit des vorgeschlagenen baumbasierten RL gegenüber der kettenbasierten RL-Methode.
Wir stellen Seedream 4.0 vor, ein effizientes und leistungsstarkes multimodales Bildgenerierungssystem, das Text-zu-Bild (T2I)-Synthese, Bildbearbeitung und Multi-Bild-Komposition in einem einzigen Framework vereint. Wir entwickeln einen hocheffizienten Diffusions-Transformer mit einem leistungsfähigen VAE, der auch die Anzahl der Bild-Tokens erheblich reduzieren kann. Dies ermöglicht eine effiziente Trainierung unseres Modells und erlaubt es, native hochauflösende Bilder (z.B. 1K-4K) schnell zu generieren. Seedream 4.0 ist auf Milliarden von Text-Bild-Paaren trainiert, die diverse Taxonomien und wissenszentrierte Konzepte abdecken. Eine umfassende Datensammlung über Hunderte von vertikalen Szenarien, kombiniert mit optimierten Strategien, gewährleistet ein stabiles und großflächiges Training mit starker Generalisierung. Durch die Einbindung eines sorgfältig feinabgestimmten VLM-Modells führen wir ein multimodales Post-Training durch, um sowohl T2I- als auch Bildbearbeitungsaufgaben gemeinsam zu trainieren. Zur Beschleunigung der Inferenz integrieren wir adversariales Distilling, Distribution Matching und Quantisierung sowie spekulatives Decoding. Es erreicht eine Inferenzzeit von bis zu 1,8 Sekunden für die Generierung eines 2K-Bildes (ohne ein LLM/VLM als PE-Modell). Umfassende Evaluierungen zeigen, dass Seedream 4.0 state-of-the-art Ergebnisse sowohl bei T2I als auch bei multimodaler Bildbearbeitung erzielen kann. Insbesondere demonstriert es außergewöhnliche multimodale Fähigkeiten in komplexen Aufgaben, einschließlich präziser Bildbearbeitung und In-Context-Reasoning, und ermöglicht auch Multi-Bild-Referenz sowie die Generierung mehrerer Ausgabebilder. Dies erweitert traditionelle T2I-Systeme zu einem interaktiveren und multidimensionalen Kreativwerkzeug und erweitert die Grenzen der generativen KI sowohl für kreative als auch professionelle Anwendungen. Seedream 4.0 ist jetzt unter https://www.volcengine.com/experience/ark?launch=seedream zugänglich.
Jüngste Fortschritte bei 3D-nativen generativen Modellen haben die Erstellung von Assets für Spiele, Filme und Design beschleunigt. Die meisten Methoden stützen sich jedoch nach wie vor hauptsächlich auf Bild- oder Textkonditionierung und verfügen nicht über fein abgestimmte, cross-modale Steuerungen, was die Kontrollierbarkeit und praktische Anwendung einschränkt. Um diese Lücke zu schließen, präsentieren wir Hunyuan3D-Omni, ein einheitliches Framework für die fein abgestimmte, kontrollierbare Erzeugung von 3D-Assets, das auf Hunyuan3D 2.1 basiert. Neben Bildern akzeptiert Hunyuan3D-Omni Punktwolken, Voxel, Begrenzungsrahmen und Skelettposen-Priors als Konditionierungssignale, wodurch eine präzise Steuerung von Geometrie, Topologie und Pose ermöglicht wird. Anstatt separate Köpfe für jede Modalität zu verwenden, vereint unser Modell alle Signale in einer einzigen cross-modalen Architektur. Wir trainieren mit einer progressiven, schwierigkeitsbewussten Sampling-Strategie, die pro Beispiel eine Steuermodalität auswählt und das Sampling auf schwierigere Signale (z. B. Skelettposen) ausrichtet, während einfachere Signale (z. B. Punktwolken) heruntergewichtet werden, um eine robuste multi-modale Fusion und einen eleganten Umgang mit fehlenden Eingaben zu fördern. Experimente zeigen, dass diese zusätzlichen Steuerungen die Generierungsgenauigkeit verbessern, geometrie-bewusste Transformationen ermöglichen und die Robustheit für Produktionsworkflows erhöhen.
AutoIntent ist ein automatisiertes Machine-Learning-Tool für Textklassifizierungsaufgaben. Im Gegensatz zu bestehenden Lösungen bietet AutoIntent eine End-to-End-Automatisierung mit der Auswahl von Embedding-Modellen, der Optimierung von Klassifikatoren und der Feinabstimmung von Entscheidungsschwellen – alles innerhalb einer modularen, sklearn-ähnlichen Schnittstelle. Das Framework ist darauf ausgelegt, Multi-Label-Klassifizierung und die Erkennung von Out-of-Scope-Fällen zu unterstützen. AutoIntent zeigt eine überlegene Leistung im Vergleich zu bestehenden AutoML-Tools auf standardisierten Intent-Klassifizierungsdatensätzen und ermöglicht es Benutzern, Effektivität und Ressourcenverbrauch auszubalancieren.
Die Einführung von Large Language Models (LLMs) als automatisierte Bewerter (LLM-as-a-judge) hat kritische Inkonsistenzen in den aktuellen Bewertungsrahmen offengelegt. Wir identifizieren zwei grundlegende Arten von Inkonsistenzen: (1) Score-Comparison-Inkonsistenz, bei der niedriger bewertete Antworten in paarweisen Vergleichen besser abschneiden als höher bewertete, und (2) Pairwise-Transitivity-Inkonsistenz, die sich durch zirkuläre Präferenzketten (A>B>C>A) und Äquivalenzwidersprüche (A=B=C≠A) manifestiert. Wir argumentieren, dass diese Probleme auf Informationsverlust in diskreten Bewertungssystemen und mehrdeutigen Unentschieden-Urteilen während der paarweisen Bewertung zurückzuführen sind. Wir schlagen TrustJudge vor, ein probabilistisches Framework, das diese Einschränkungen durch zwei Schlüsselinnovationen adressiert: 1) verteilungssensitive Bewertung, die kontinuierliche Erwartungswerte aus diskreten Bewertungswahrscheinlichkeiten berechnet und die Informationsentropie für präzisere Bewertungen erhält, und 2) wahrscheinlichkeitsbewusste Aggregation, die Transitivitätsverletzungen durch bidirektionale Präferenzwahrscheinlichkeiten oder Perplexität auflöst. Wir formalisieren auch die theoretischen Grenzen der aktuellen LLM-as-a-judge-Frameworks und zeigen, wie die Komponenten von TrustJudge diese überwinden. Bei der Bewertung mit Llama-3.1-70B-Instruct als Bewerter anhand unseres Datensatzes reduziert TrustJudge die Score-Comparison-Inkonsistenz um 8,43 % (von 23,32 % auf 14,89 %) und die Pairwise-Transitivity-Inkonsistenz um 10,82 % (von 15,22 % auf 4,40 %), während gleichzeitig eine höhere Bewertungsgenauigkeit beibehalten wird. Unsere Arbeit bietet die erste systematische Analyse von Inkonsistenzen in Bewertungsrahmen innerhalb der LLM-as-a-judge-Paradigmen und liefert sowohl theoretische Einblicke als auch praktische Lösungen für zuverlässige automatisierte Bewertungen. Das Framework zeigt konsistente Verbesserungen über verschiedene Modellarchitekturen und -größen hinweg und ermöglicht eine vertrauenswürdigere LLM-Bewertung ohne zusätzliches Training oder menschliche Annotationen. Die Codes sind unter https://github.com/TrustJudge/TrustJudge verfügbar.
Dieses Papier stellt einen einfachen und skalierbaren Ansatz vor, um die Dateneffizienz des Trainings großer Sprachmodelle (LLMs) zu verbessern, indem bestehende Textdaten mit Denkpfaden angereichert werden. Der Rechenaufwand für das Vortraining von LLMs wächst in beispiellosem Tempo, während die Verfügbarkeit hochwertiger Daten begrenzt bleibt. Folglich stellt die Maximierung des Nutzens verfügbarer Daten eine bedeutende Forschungsherausforderung dar. Ein Haupthemmnis ist, dass bestimmte hochwertige Tokens bei begrenzter Modellkapazität schwer zu erlernen sind, da die zugrunde liegende Logik für ein einzelnes Token außerordentlich komplex und tiefgreifend sein kann. Um dieses Problem zu lösen, schlagen wir Thinking augmented Pre-Training (TPT) vor, eine universelle Methode, die Text mit automatisch generierten Denkpfaden anreichert. Eine solche Anreicherung erhöht effektiv das Volumen der Trainingsdaten und macht hochwertige Tokens durch schrittweises Denken und Zerlegung besser erlernbar. Wir wenden TPT in verschiedenen Trainingskonfigurationen bis zu 100B Tokens an, einschließlich Vortraining mit sowohl begrenzten als auch reichlich vorhandenen Daten sowie Mittraining von starken Open-Source-Checkpoints. Experimentelle Ergebnisse zeigen, dass unsere Methode die Leistung von LLMs über verschiedene Modellgrößen und -familien hinweg erheblich verbessert. Insbesondere steigert TPT die Dateneffizienz des LLM-Vortrainings um den Faktor 3. Für ein Modell mit 3B Parametern verbessert es die Leistung nach dem Training um über 10 % in mehreren anspruchsvollen Reasoning-Benchmarks.
Reinforcement Learning (RL) hat sich zu einem leistungsstarken Paradigma entwickelt, um große Sprachmodelle (LLMs) für die Bewältigung komplexer Denkaufgaben zu optimieren. Eine zentrale Herausforderung in diesem Prozess besteht in der Steuerung der Policy-Entropie, die das Gleichgewicht zwischen Exploration und Exploitation während des Trainings widerspiegelt. Bestehende Methoden wie Proximal Policy Optimization (PPO) und deren Varianten verwerfen wertvolle Gradientensignale von Tokens mit geringer Wahrscheinlichkeit aufgrund des Clipping-Mechanismus. Wir analysieren systematisch die Entropiedynamik und zeigen, dass diese abgeschnittenen Tokens eine kritische, aber oft übersehene Rolle bei der Regulierung der Entropieentwicklung spielen. Wir schlagen Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO) vor, einen neuartigen Algorithmus, der Gradienten von abgeschnittenen Tokens in der nativen PPO auf sanfte und begrenzte Weise wieder einführt. Durch die Kontrolle der Größe der Gradienten von Tokens außerhalb des Clipping-Intervalls ermöglicht CE-GPPO einen Ausgleich zwischen Exploration und Exploitation. Wir liefern theoretische Begründungen und empirische Belege, die zeigen, dass CE-GPPO die Entropieinstabilität effektiv reduziert. Umfangreiche Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass CE-GPPO durchweg starke Baseline-Modelle über verschiedene Modellgrößen hinweg übertrifft.
Jüngste Fortschritte im Bereich des Behavior Cloning (BC) haben beeindruckende visuomotorische Steuerungsstrategien ermöglicht. Diese Ansätze sind jedoch durch die Qualität menschlicher Demonstrationen, den manuellen Aufwand für die Datenerfassung und die abnehmenden Erträge durch zusätzliche Offline-Daten begrenzt. Im Vergleich dazu trainiert Reinforcement Learning (RL) einen Agenten durch autonome Interaktion mit der Umgebung und hat in verschiedenen Domänen bemerkenswerte Erfolge gezeigt. Dennoch bleibt das direkte Training von RL-Strategien auf realen Robotern aufgrund von Ineffizienz bei der Stichprobenerfassung, Sicherheitsbedenken und der Schwierigkeit, aus spärlichen Belohnungen für langfristige Aufgaben zu lernen, insbesondere bei Systemen mit vielen Freiheitsgraden (DoF), eine Herausforderung. Wir präsentieren eine Methode, die die Vorteile von BC und RL durch ein Residual-Learning-Framework kombiniert. Unser Ansatz nutzt BC-Strategien als Blackbox-Basis und lernt leichte schrittweise Residualkorrekturen durch effizientes Off-Policy RL. Wir zeigen, dass unsere Methode nur spärliche binäre Belohnungssignale benötigt und Manipulationsstrategien auf Systemen mit vielen Freiheitsgraden (DoF) sowohl in der Simulation als auch in der realen Welt effektiv verbessern kann. Insbesondere demonstrieren wir, unseres Wissens nach, das erste erfolgreiche RL-Training in der realen Welt auf einem humanoiden Roboter mit geschickten Händen. Unsere Ergebnisse zeigen Spitzenleistungen in verschiedenen visuellen Aufgaben und weisen auf einen praktischen Weg zur Implementierung von RL in der realen Welt hin. Projektwebsite: https://residual-offpolicy-rl.github.io
Wir präsentieren CHARM, eine neuartige parametrische Darstellung und ein generatives Framework für die Modellierung von Anime-Frisuren. Während sich traditionelle Methoden zur Haarmodellierung auf realistische Haare mittels strangbasierter oder volumetrischer Darstellungen konzentrieren, weisen Anime-Frisuren eine stark stilisierte, stückweise strukturierte Geometrie auf, die bestehende Techniken vor Herausforderungen stellt. Bisherige Arbeiten stützen sich oft auf dichte Mesh-Modellierung oder handgefertigte Spline-Kurven, was sie ineffizient für die Bearbeitung und ungeeignet für skalierbares Lernen macht. CHARM führt eine kompakte, invertierbare Kontrollpunkt-basierte Parametrisierung ein, bei der eine Sequenz von Kontrollpunkten jede Haarsträhne repräsentiert und jeder Punkt mit nur fünf geometrischen Parametern kodiert wird. Diese effiziente und präzise Darstellung unterstützt sowohl künstlerfreundliches Design als auch lernbasierte Generierung. Auf dieser Darstellung aufbauend, führt CHARM ein autoregressives generatives Framework ein, das effektiv Anime-Frisuren aus Eingabebildern oder Punktwolken generiert. Indem wir Anime-Frisuren als eine sequenzielle „Haarsprache“ interpretieren, erfasst unser autoregressiver Transformer sowohl lokale Geometrie als auch globale Frisurentopologie, was zu hochwertigen Anime-Frisuren führt. Um sowohl das Training als auch die Bewertung der Anime-Frisurgenerierung zu erleichtern, haben wir AnimeHair erstellt, einen umfangreichen Datensatz mit 37.000 hochwertigen Anime-Frisuren, getrennten Haarsträhnen und verarbeiteten Mesh-Daten. Umfangreiche Experimente demonstrieren die state-of-the-art Leistung von CHARM sowohl in der Rekonstruktionsgenauigkeit als auch in der Generierungsqualität und bieten eine ausdrucksstarke und skalierbare Lösung für die Modellierung von Anime-Frisuren. Projektseite: https://hyzcluster.github.io/charm/
In den letzten Jahren haben multimodale Modelle bemerkenswerte Fortschritte gemacht und den Weg für intelligente Browser-Nutzungsagenten geebnet. Bei der Lösung von Aufgaben auf realen Webseiten in mehrstufigen, langfristigen Trajektorien leiden aktuelle Agenten jedoch immer noch unter ungeordneten Aktionssequenzen und übermäßigem Ausprobieren während der Ausführung. Dieses Paper stellt Recon-Act vor, ein sich selbst weiterentwickelndes Multi-Agenten-Framework, das auf dem Reconnaissance-Action-Verhaltensparadigma basiert. Das System besteht aus einem Reconnaissance-Team und einem Action-Team: Ersteres führt vergleichende Analysen und Tool-Generierung durch, während Letzteres die Intent-Zerlegung, Tool-Orchestrierung und Ausführung übernimmt. Durch den Vergleich fehlerhafter Trajektorien mit erfolgreichen, leitet das Reconnaissance-Team Abhilfemaßnahmen ab und abstrahiert sie zu einem einheitlichen Konzept generalisierter Tools, die entweder als Hinweise oder als regelbasierte Codes ausgedrückt und in Echtzeit im Tool-Archiv registriert werden. Das Action-Team führt den Prozess erneut durch, unterstützt durch diese zielgerichteten Tools, und etabliert so eine geschlossene Trainingspipeline von Daten-Tools-Aktion-Feedback. Entsprechend der in dieser Arbeit vorgeschlagenen 6-stufigen Implementierungs-Roadmap haben wir derzeit Stufe 3 erreicht (mit begrenzter menschlicher Intervention). Durch die Nutzung generalisierter Tools, die durch Reconnaissance gewonnen wurden, verbessert Recon-Act die Anpassungsfähigkeit an unbekannte Webseiten und die Lösbarkeit langfristiger Aufgaben erheblich und erzielt state-of-the-art Leistungen auf dem anspruchsvollen VisualWebArena-Datensatz.
Die Bildkomposition zielt darauf ab, ein benutzerdefiniertes Objekt nahtlos in eine neue Szene einzufügen, doch bestehende Modelle haben Schwierigkeiten mit komplexen Lichtverhältnissen (z. B. präzise Schatten, Wasserreflexionen) und vielfältigen, hochauflösenden Eingaben. Moderne Text-zu-Bild-Diffusionsmodelle (z. B. SD3.5, FLUX) kodieren bereits wesentliche physikalische und Auflösungs-Priors, es fehlt jedoch ein Framework, um diese ohne Rückgriff auf latente Inversion freizusetzen, die oft Objektposen in kontextuell unpassende Orientierungen zwingt, oder auf fragile Attention-Surgery. Wir schlagen SHINE vor, ein trainingsfreies Framework für nahtlose, hochauflösende Einfügung mit neutralisierten Fehlern. SHINE führt den manifold-gesteuerten Anchor-Loss ein, der vortrainierte Anpassungsadapter (z. B. IP-Adapter) nutzt, um Latents für eine treue Darstellung des Subjekts zu leiten, während die Hintergrundintegrität bewahrt wird. Degradationsunterdrückungsführung und adaptives Hintergrundblending werden vorgeschlagen, um qualitativ minderwertige Ausgaben und sichtbare Nahtstellen weiter zu eliminieren. Um den Mangel an rigorosen Benchmarks zu beheben, führen wir ComplexCompo ein, das vielfältige Auflösungen und herausfordernde Bedingungen wie schwache Beleuchtung, starke Lichtverhältnisse, komplexe Schatten und reflektierende Oberflächen bietet. Experimente auf ComplexCompo und DreamEditBench zeigen state-of-the-art Leistung bei Standardmetriken (z. B. DINOv2) und menschlich ausgerichteten Bewertungen (z. B. DreamSim, ImageReward, VisionReward). Code und Benchmark werden nach der Veröffentlichung öffentlich zugänglich sein.
Während Large Reasoning Models (LRMs) umfangreiche Ketten von Denkprozessen (Chain-of-Thought) generieren, fehlt ein prinzipieller Rahmen, um zu verstehen, wie diese Gedanken strukturiert sind. In diesem Artikel führen wir einen neuartigen Ansatz ein, indem wir Schoenfelds Episodentheorie, ein klassisches kognitives Rahmenwerk für menschliches mathematisches Problemlösen, zur Analyse der Denkspuren von LRMs anwenden. Wir haben Tausende von Sätzen und Absätzen aus modellgenerierten Lösungen für mathematische Probleme mit sieben kognitiven Labels (z. B. Planen, Implementieren, Überprüfen) annotiert. Das Ergebnis ist der erste öffentlich verfügbare Benchmark für die feingranulare Analyse des maschinellen Denkens, einschließlich eines umfangreichen annotierten Korpus und detaillierter Annotationshandbücher. Unsere vorläufige Analyse zeigt deutliche Muster im Denken von LRMs, wie z. B. die Übergangsdynamik zwischen kognitiven Zuständen. Dieser Rahmen bietet eine theoretisch fundierte Methodik zur Interpretation der Kognition von LRMs und ermöglicht zukünftige Arbeiten an kontrollierbareren und transparenteren Denksystemen.
Wir präsentieren SD3.5-Flash, ein effizientes Few-Step-Distillationsframework, das hochwertige Bildgenerierung auf zugängliche Endgeräte bringt. Unser Ansatz destilliert rechenintensive rectified flow-Modelle durch ein reformuliertes Verteilungsanpassungsziel, das speziell für die Few-Step-Generierung entwickelt wurde. Wir führen zwei Schlüsselinnovationen ein: „Timestep Sharing“, um Gradientenrauschen zu reduzieren, und „Split-Timestep Fine-Tuning“, um die Prompt-Ausrichtung zu verbessern. In Kombination mit umfassenden Pipeline-Optimierungen wie der Umstrukturierung des Textencoders und spezialisierter Quantisierung ermöglicht unser System sowohl schnelle Generierung als auch speichereffiziente Bereitstellung über verschiedene Hardwarekonfigurationen hinweg. Dies demokratisiert den Zugang über das gesamte Spektrum der Geräte, von Mobiltelefonen bis hin zu Desktop-Computern. Durch umfangreiche Evaluierungen, einschließlich groß angelegter Nutzerstudien, zeigen wir, dass SD3.5-Flash bestehende Few-Step-Methoden durchweg übertrifft und damit fortschrittliche generative KI wirklich praktisch einsetzbar macht.
Code-Large-Language-Models haben bemerkenswerte Fähigkeiten bei Programmieraufgaben gezeigt, doch konzentrieren sich aktuelle Benchmarks hauptsächlich auf Einzelmodalitäten anstatt auf visuelle Spieleentwicklung. Die meisten bestehenden Code-bezogenen Benchmarks bewerten die Syntaxkorrektheit und Ausführungsgenauigkeit, übersehen jedoch kritische spielspezifische Metriken wie Spielbarkeit, visuelle Ästhetik und Benutzerengagement, die für den praktischen Einsatz entscheidend sind. Um die Lücke zwischen den aktuellen Fähigkeiten von LLMs im algorithmischen Problemlösen und kompetitiven Programmieren und den umfassenden Anforderungen der praktischen Spieleentwicklung zu schließen, präsentieren wir V-GameGym, einen umfassenden Benchmark, der 2.219 hochwertige Proben aus 100 thematischen Clustern umfasst, die aus realen Repositories abgeleitet wurden. Dabei verwenden wir eine neuartige, clusterbasierte Kuratierungsmethode, um sowohl Vielfalt als auch strukturelle Vollständigkeit sicherzustellen. Darüber hinaus führen wir ein multimodales Bewertungsframework mit einer automatisierten, LLM-gesteuerten Pipeline zur visuellen Codesynthese in vollständigen UI-Sandbox-Umgebungen ein. Unsere umfangreiche Analyse zeigt, dass V-GameGym effektiv die Lücke zwischen der Genauigkeit der Codegenerierung und den praktischen Workflows der Spieleentwicklung schließt und quantifizierbare Qualitätsmetriken für visuelle Programmierung und die Erzeugung interaktiver Elemente liefert.
Reinforcement Learning (RL) hat sich als vielversprechend erwiesen, um agentenbasierte Modelle zu trainieren, die über statische Benchmarks hinausgehen und dynamische, mehrstufige Interaktionen ermöglichen. Der eigentliche Wert solcher Agenten liegt jedoch in ihrer Fähigkeit, Nutzer zu unterstützen – ein Kontext, in dem die Vielfalt und Dynamik der Nutzerinteraktionen Herausforderungen darstellen. In dieser Arbeit schlagen wir UserRL vor, ein einheitliches Framework zur Schulung und Bewertung nutzerzentrierter Fähigkeiten durch standardisierte Gym-Umgebungen in Kombination mit simulierten Nutzern. Wir variieren systematisch die Zuweisung von Belohnungen auf Turn-Ebene und die Berechnung von Trajektorie-basierten Scores, um zu analysieren, wie unterschiedliche Formulierungen das Lernen unter dem GRPO-Algorithmus beeinflussen. Unsere Experimente mit Qwen3-Modellen zeigen drei zentrale Erkenntnisse: (i) Der SFT-Kaltstart ist entscheidend, um die anfängliche Interaktionsfähigkeit freizusetzen und nachhaltige RL-Verbesserungen zu ermöglichen; (ii) gezielte Trajektorie-Bewertung führt zu effizienteren und effektiveren mehrstufigen Interaktionen; und (iii) während stärkere simulierte Nutzer (z. B. GPT-4o) das Training erleichtern, bleiben Open-Source-Simulatoren (z. B. Qwen3-32B) eine kosteneffiziente und übertragbare Option. Zusammengenommen unterstreichen diese Ergebnisse, dass die sorgfältige Gestaltung der Belohnungsformung und die Wahl der Nutzersimulation ebenso entscheidend sind wie die Modellgröße, und etablieren UserRL als praktischen Ansatz zur Entwicklung robuster nutzerzentrierter agentenbasierter Modelle. Alle Codes und Daten sind öffentlich zugänglich, um zukünftige Forschung zu ermöglichen.
Lernbasierte 3D-Rekonstruktionsmodelle, repräsentiert durch Visual Geometry Grounded Transformers (VGGTs), haben durch den Einsatz von großskaligen Transformern bemerkenswerte Fortschritte erzielt. Ihre prohibitiv hohen Rechen- und Speicherkosten behindern jedoch die praktische Anwendung erheblich. Die Post-Training-Quantisierung (PTQ) hat sich als gängige Methode zur Komprimierung und Beschleunigung von Modellen etabliert. Wir beobachten jedoch empirisch, dass PTQ bei der Komprimierung von milliardengroßen VGGTs auf einzigartige Hindernisse stößt: Die datenunabhängigen speziellen Token führen zu schweren Verteilungen der Aktivierungen, während die Multi-View-Natur von 3D-Daten die Auswahl von Kalibrierungsproben äußerst instabil macht. In diesem Artikel schlagen wir das erste Quantisierungsframework für VGGTs vor, genannt QuantVGGT. Dieses basiert hauptsächlich auf zwei technischen Beiträgen: Erstens führen wir die Dual-Smoothed Fine-Grained Quantization ein, die eine prä-globale Hadamard-Rotation und eine post-lokale Kanalsättigung integriert, um schwer verteilte Verteilungen und Inter-Kanal-Varianzen robust zu mildern. Zweitens entwerfen wir Noise-Filtered Diverse Sampling, das Ausreißer durch tiefe Schichtenstatistiken filtert und rahmenbewusste diverse Kalibrierungscluster konstruiert, um stabile Quantisierungsbereiche zu gewährleisten. Umfassende Experimente zeigen, dass QuantVGGT in verschiedenen Benchmarks und Bit-Breiten die besten Ergebnisse erzielt und die bisherige generische Quantisierungsmethode deutlich übertrifft. Wir betonen, dass unser 4-Bit-QuantVGGT eine 3,7-fache Speicherreduktion und eine 2,5-fache Beschleunigung bei der Inferenz auf echter Hardware liefern kann, während die Rekonstruktionsgenauigkeit über 98 % des Vollpräzisionsmodells bleibt. Dies demonstriert die enormen Vorteile und die Praktikabilität von QuantVGGT in ressourcenbeschränkten Szenarien. Unser Code ist unter https://github.com/wlfeng0509/QuantVGGT verfügbar.
Große Reasoning-Modelle (LRMs) haben beeindruckende Fähigkeiten bei der Lösung komplexer Probleme gezeigt, oft durch das Training anspruchsvoller mathematischer Probleme, die tiefgreifendes Denken fördern. Jüngste Bemühungen haben die automatisierte Synthese mathematischer Probleme untersucht, indem proprietäre Modelle oder groß angelegte Open-Source-Modelle mit Ausgangsdaten oder inhärenten mathematischen Konzepten angestoßen wurden. Die Skalierung dieser Methoden bleibt jedoch aufgrund ihrer hohen Rechen-/API-Kosten, der Komplexität des Promptings und des begrenzten Schwierigkeitsgrades der generierten Probleme eine Herausforderung. Um diese Einschränkungen zu überwinden, schlagen wir ScaleDiff vor, eine einfache, aber effektive Pipeline, die darauf abzielt, die Erstellung schwieriger Probleme zu skalieren. Wir identifizieren effizient schwierige Probleme aus bestehenden Datensätzen mit nur einem einzigen Vorwärtsdurchlauf unter Verwendung eines adaptiven Denkmodells, das den Schwierigkeitsgrad von Problemen wahrnehmen und automatisch zwischen „Denken“ und „Nicht-Denken“ wechseln kann. Anschließend trainieren wir einen spezialisierten Generator für schwierige Probleme (DiffGen-8B) auf diesen gefilterten Daten, der neue schwierige Probleme in großem Maßstab erzeugen kann und so den Bedarf an komplexem, instanzspezifischem Prompting und den damit verbundenen hohen API-Kosten eliminiert. Das Feinabstimmen von Qwen2.5-Math-7B-Instruct auf dem ScaleDiff-Math-Datensatz führt zu einer erheblichen Leistungssteigerung von 11,3 % im Vergleich zum ursprünglichen Datensatz und erreicht eine durchschnittliche Genauigkeit von 65,9 % auf AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 und MATH500, wobei es aktuelle starke LRMs wie OpenThinker3 übertrifft. Bemerkenswert ist, dass diese Leistung mit dem kosteneffizienten Qwen3-8B-Modell als Lehrer erreicht wird, was zeigt, dass unsere Pipeline fortgeschrittene Denkfähigkeiten effektiv übertragen kann, ohne auf größere, teurere Lehrer-Modelle angewiesen zu sein. Darüber hinaus beobachten wir ein deutliches Skalierungsphänomen in der Modellleistung bei schwierigen Benchmarks, wenn die Menge der schwierigen Probleme zunimmt. Code: https://github.com/QizhiPei/ScaleDiff.
Die Synthese von Innenraumszenen hat mit dem Aufstieg von Embodied AI zunehmend an Bedeutung gewonnen, da sie 3D-Umgebungen erfordert, die nicht nur visuell realistisch, sondern auch physikalisch plausibel und funktional vielfältig sind. Während aktuelle Ansätze die visuelle Qualität verbessert haben, bleiben sie oft auf feste Szenenkategorien beschränkt, weisen unzureichende Detailgenauigkeit auf Objektebene und mangelnde physikalische Konsistenz auf und haben Schwierigkeiten, komplexe Benutzeranweisungen umzusetzen. In dieser Arbeit stellen wir SceneWeaver vor, ein reflexives agentenbasiertes Framework, das verschiedene Szenensyntheseparadigmen durch werkzeugbasierte iterative Verfeinerung vereint. Im Kern verwendet SceneWeaver einen sprachmodellbasierten Planer, um aus einer Reihe erweiterbarer Szenengenerierungswerkzeuge auszuwählen, die von datengetriebenen generativen Modellen bis hin zu visuellen und LLM-basierten Methoden reichen. Dies geschieht unter Berücksichtigung der Selbstbewertung von physikalischer Plausibilität, visuellem Realismus und semantischer Übereinstimmung mit Benutzereingaben. Dieser geschlossene Kreislauf aus Denken-Handeln-Reflektieren ermöglicht es dem Agenten, semantische Inkonsistenzen zu identifizieren, gezielte Werkzeuge aufzurufen und die Umgebung über aufeinanderfolgende Iterationen zu aktualisieren. Umfangreiche Experimente sowohl mit gängigen als auch offenen Raumtypen zeigen, dass SceneWeaver nicht nur frühere Methoden in Bezug auf physikalische, visuelle und semantische Metriken übertrifft, sondern auch effektiv auf komplexe Szenen mit vielfältigen Anweisungen verallgemeinert. Damit markiert es einen Schritt in Richtung der universellen 3D-Umgebungserzeugung. Projektwebsite: https://scene-weaver.github.io/.
Suchverstärkte große Sprachmodelle (LLMs) haben informationssuchende Aufgaben vorangetrieben, indem sie die Informationsbeschaffung in die Generierung integrieren und so die kognitive Belastung der Nutzer im Vergleich zu traditionellen Suchsystemen verringern. Dennoch sind sie noch nicht ausreichend, um die vielfältigen Bedürfnisse der Nutzer vollständig zu erfüllen, was erfordert, zu erkennen, wie dieselbe Anfrage bei verschiedenen Nutzern unterschiedliche Intentionen widerspiegeln kann, und Informationen in bevorzugten Formen bereitzustellen. Während neuere Systeme wie ChatGPT und Gemini versuchen, durch die Nutzung von Nutzerverläufen eine Personalisierung zu erreichen, ist die systematische Bewertung solcher Personalisierungsansätze noch unzureichend erforscht. Um diese Lücke zu schließen, schlagen wir BESPOKE vor, den realistischen Benchmark zur Bewertung der Personalisierung in suchverstärkten LLMs. BESPOKE ist darauf ausgelegt, sowohl realistisch zu sein, indem authentische Chat- und Suchverläufe direkt von Menschen gesammelt werden, als auch diagnostisch, indem Antworten mit detaillierten Präferenzbewertungen und Feedback kombiniert werden. Der Benchmark wird durch langfristige, intensiv engagierte menschliche Annotation erstellt, bei der menschliche Annotatoren ihre eigenen Verläufe beigetragen, Anfragen mit detaillierten Informationsbedürfnissen verfasst und Antworten mit Bewertungen und diagnostischem Feedback bewertet haben. Durch die Nutzung von BESPOKE führen wir systematische Analysen durch, die wesentliche Anforderungen für eine effektive Personalisierung in informationssuchenden Aufgaben aufdecken und eine Grundlage für die detaillierte Bewertung personalisierter suchverstärkter LLMs bieten. Unser Code und unsere Daten sind verfügbar unter https://augustinlib.github.io/BESPOKE/.
Traditionelle Empfehlungssysteme stützen sich auf passive Feedback-Mechanismen, die Nutzer auf einfache Auswahlmöglichkeiten wie „Gefällt mir“ und „Gefällt mir nicht“ beschränken. Diese grobkörnigen Signale erfassen jedoch nicht die nuancenreichen Verhaltensmotive und Absichten der Nutzer. Folglich können aktuelle Systeme auch nicht unterscheiden, welche spezifischen Artikelattribute die Zufriedenheit oder Unzufriedenheit der Nutzer beeinflussen, was zu ungenauen Präferenzmodellen führt. Diese grundlegenden Einschränkungen schaffen eine anhaltende Lücke zwischen den Absichten der Nutzer und den Interpretationen des Systems, was letztendlich die Nutzerzufriedenheit beeinträchtigt und die Effektivität des Systems mindert. Um diese Einschränkungen zu überwinden, führen wir den Interactive Recommendation Feed (IRF) ein, ein bahnbrechendes Paradigma, das natürliche Sprachbefehle in gängigen Empfehlungsfeeds ermöglicht. Im Gegensatz zu traditionellen Systemen, die Nutzer auf passive, implizite Verhaltensbeeinflussung beschränken, ermöglicht IRF die aktive, explizite Kontrolle über Empfehlungsrichtlinien durch Echtzeit-Sprachbefehle. Um dieses Paradigma zu unterstützen, entwickeln wir RecBot, eine Dual-Agent-Architektur, bei der ein Parser-Agent sprachliche Ausdrücke in strukturierte Präferenzen umwandelt und ein Planner-Agent adaptive Werkzeugketten für die dynamische Anpassung der Richtlinien orchestriert. Um die praktische Implementierung zu ermöglichen, setzen wir simulationsgestützte Wissensdestillation ein, um eine effiziente Leistung bei gleichzeitiger Beibehaltung starker Argumentationsfähigkeiten zu erreichen. Durch umfangreiche Offline- und langfristige Online-Experimente zeigt RecBot signifikante Verbesserungen sowohl in der Nutzerzufriedenheit als auch in den geschäftlichen Ergebnissen.
Während explizite Positionskodierungen wie RoPE eine primäre Quelle für Positionsinformationen in Transformer-Decodern sind, liefert auch die kausale Maske Positionsinformationen. In dieser Arbeit beweisen wir, dass die kausale Maske positionsabhängige Muster in den Aufmerksamkeitswerten induzieren kann, selbst ohne Parameter oder kausale Abhängigkeiten im Eingabedaten. Unsere theoretische Analyse zeigt, dass das induzierte Aufmerksamkeitsmuster dazu neigt, nahe gelegene Query-Key-Paare zu bevorzugen, was das Verhalten gängiger Positionskodierungen widerspiegelt. Empirische Analysen bestätigen, dass trainierte Modelle dasselbe Verhalten aufweisen, wobei gelernte Parameter diese Muster weiter verstärken. Bemerkenswerterweise fanden wir heraus, dass die Interaktion zwischen kausaler Maske und RoPE die relativen Aufmerksamkeitswertmuster von RoPE in nicht-relative Muster verzerrt. Diesen Effekt haben wir konsistent in modernen großen Sprachmodellen beobachtet, was die Bedeutung unterstreicht, die kausale Maske neben expliziten Positionskodierungen als Quelle für Positionsinformationen zu betrachten.
LLM-bewertete Benchmarks werden zunehmend zur Bewertung komplexer Modellverhaltensweisen eingesetzt, doch ihr Design führt zu Fehlermodi, die in herkömmlichen, auf Grundwahrheiten basierenden Benchmarks nicht vorhanden sind. Wir argumentieren, dass ohne klare Ziele und überprüfbare Konstruktionen Benchmark-Rankings hochkonfidente Rangfolgen erzeugen können, die in Wirklichkeit größtenteils Rauschen sind. Wir führen zwei Mechanismen ein, um diese Probleme zu diagnostizieren. Die schematische Einhaltung quantifiziert, wie viel des Gesamturteils eines Bewerters durch das explizite Bewertungsschema erklärt wird, und deckt unerklärte Varianz auf, wenn Bewerter von ihrem eigenen Bewertungsraster abweichen. Die psychometrische Validität aggregiert interne Konsistenz und diskriminante Validitätssignale, um die nicht reduzierbare Unsicherheit in jedem Benchmarking-Lauf zu quantifizieren. Durch die Anwendung dieser Werkzeuge auf Arena-Hard Auto stellen wir schwerwiegende Schema-Inkohärenz und Faktorzusammenbrüche bei beliebten Bewertern fest: Beispielsweise übersteigt die unerklärte Varianz 90 Prozent für DeepSeek-R1-32B, und die Faktorkorrelationen liegen bei den meisten Kriterien über 0,93. Wir zeigen auch, dass die in Arena-Hard Auto verwendete ELO-artige Aggregation echte Rangunsicherheiten zusammenbrechen und maskieren lässt. Unsere Ergebnisse verdeutlichen Designfehler, die die Validität untergraben, und bieten umsetzbare Prinzipien für den Aufbau besser abgesteckter, zuverlässigkeitsbewusster LLM-bewerteter Benchmarks. Wir veröffentlichen unseren Code unter https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
Trotz stetiger Fortschritte in der Layout-zu-Bild-Generierung haben aktuelle Methoden nach wie vor Schwierigkeiten mit Layouts, die signifikante Überlappungen zwischen Begrenzungsrahmen aufweisen. Wir identifizieren zwei Hauptherausforderungen: (1) große überlappende Regionen und (2) überlappende Instanzen mit minimaler semantischer Unterscheidung. Anhand qualitativer Beispiele und quantitativer Analysen zeigen wir, wie diese Faktoren die Generierungsqualität beeinträchtigen. Um dieses Problem systematisch zu bewerten, führen wir OverLayScore ein, eine neuartige Metrik, die die Komplexität überlappender Begrenzungsrahmen quantifiziert. Unsere Analyse zeigt, dass bestehende Benchmarks auf einfachere Fälle mit niedrigen OverLayScore-Werten ausgerichtet sind, was ihre Wirksamkeit bei der Bewertung der Modellleistung unter anspruchsvolleren Bedingungen einschränkt. Um diese Lücke zu schließen, präsentieren wir OverLayBench, einen neuen Benchmark mit hochwertigen Annotationen und einer ausgewogenen Verteilung über verschiedene OverLayScore-Niveaus hinweg. Als ersten Schritt zur Verbesserung der Leistung bei komplexen Überlappungen schlagen wir auch CreatiLayout-AM vor, ein Modell, das auf einem kuratierten amodalen Masken-Datensatz feinabgestimmt wurde. Zusammen legen unsere Beiträge den Grundstein für eine robustere Layout-zu-Bild-Generierung unter realistischen und anspruchsvollen Szenarien. Projektlink: https://mlpc-ucsd.github.io/OverLayBench.
Video Reasoning hat sich als entscheidende Fähigkeit für multimodale große Sprachmodelle (MLLMs) herausgestellt, wobei Modelle über die statische Wahrnehmung hinausgehen und ein kohärentes Verständnis der zeitlichen Dynamik in komplexen Szenen entwickeln müssen. Dennoch zeigen bestehende MLLMs oft Prozessinkonsistenzen, bei denen das Zwischenreasoning von der Videodynamik abweicht, selbst wenn die endgültige Antwort korrekt ist, was die Interpretierbarkeit und Robustheit untergräbt. Um dieses Problem zu lösen, stellen wir MOSS-ChatV vor, ein Reinforcement-Learning-Framework mit einem prozessbasierten Reward, der auf Dynamic Time Warping (DTW) basiert. Dieser regelbasierte Reward richtet Reasoning-Traces an zeitlich verankerten Referenzen aus und ermöglicht so eine effiziente Prozessüberwachung ohne zusätzliche Reward-Modelle. Wir identifizieren weiterhin die dynamische Zustandsvorhersage als zentrales Maß für Video Reasoning und entwickeln MOSS-Video, einen Benchmark mit annotierten Reasoning-Traces, bei dem der Trainingssplit zur Feinabstimmung von MOSS-ChatV verwendet wird und der zurückgehaltene Split für die Evaluation reserviert ist. MOSS-ChatV erreicht 87,2 % auf MOSS-Video (Test) und verbessert die Leistung auf allgemeinen Video-Benchmarks wie MVBench und MMVU. Das Framework erzielt konsistent Gewinne über verschiedene Architekturen hinweg, einschließlich Qwen2.5-VL und Phi-2, was seine breite Anwendbarkeit bestätigt. Bewertungen mit GPT-4o-as-Judge zeigen weiterhin, dass MOSS-ChatV konsistentere und stabilere Reasoning-Traces erzeugt.
Große Sprachmodelle (LLMs) stehen vor erheblichen rechnerischen Herausforderungen bei der Verarbeitung langer Kontexte aufgrund der quadratischen Komplexität der Selbstaufmerksamkeit. Obwohl Soft-Context-Kompressionsmethoden, die Eingabetext in kleinere latente Repräsentationen abbilden, vielversprechend sind, ist ihre praktische Anwendung begrenzt. Bestehende Techniken komprimieren den Kontext typischerweise als eine Einheit, was zu einer quadratischen Kompressionskomplexität und der Unfähigkeit führt, Berechnungen über Abfragen mit überlappenden Kontexten wiederzuverwenden. In dieser Arbeit stellen wir CompLLM vor, eine Soft-Kompressionsmethode, die für den praktischen Einsatz konzipiert ist. Anstatt den Kontext ganzheitlich zu verarbeiten, teilt CompLLM ihn in Segmente auf und komprimiert jedes unabhängig. Diese einfache Designentscheidung führt zu drei entscheidenden Eigenschaften: Effizienz, da der Kompressionsschritt linear mit der Kontextlänge skaliert; Skalierbarkeit, die es Modellen, die auf kurzen Sequenzen (z.B. 1k Token) trainiert wurden, ermöglicht, auf Kontexte von 100k Token zu generalisieren; und Wiederverwendbarkeit, die es erlaubt, komprimierte Segmente zwischen verschiedenen Abfragen zu cachen und wiederzuverwenden. Unsere Experimente zeigen, dass CompLLM bei einer 2-fachen Kompressionsrate bei hohen Kontextlängen die Time To First Token (TTFT) um bis zu 4x beschleunigt und die Größe des KV-Caches um 50 % reduziert. Darüber hinaus erreicht CompLLM eine Leistung, die mit der des unkomprimierten Kontexts vergleichbar ist, und übertrifft diese sogar bei sehr langen Sequenzen, was seine Effektivität und praktische Nützlichkeit unterstreicht.
Die Effektivität von Large Language Models (LLMs) wird maßgeblich von den Denkstrategien oder Denkstilen beeinflusst, die in ihren Prompts verwendet werden. Das Zusammenspiel zwischen diesen Denkstilen, der Modellarchitektur und dem Aufgabentyp ist jedoch noch weitgehend unverstanden. Um dies zu adressieren, führen wir StyleBench ein, einen umfassenden Benchmark zur systematischen Bewertung von Denkstilen über verschiedene Aufgaben und Modelle hinweg. Wir bewerten fünf repräsentative Denkstile, darunter Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) und Chain-of-Draft (CoD) in fünf Denkaufgaben, wobei wir 15 Open-Source-Modelle aus wichtigen Modellfamilien (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi und DeepSeek) mit einer Bandbreite von 270M bis 120B Parametern verwenden. Unsere groß angelegte Analyse zeigt, dass kein einzelner Stil universell optimal ist. Wir demonstrieren, dass die Wirksamkeit der Strategien stark von der Modellgröße und dem Aufgabentyp abhängt: suchbasierte Methoden (AoT, ToT) glänzen bei offenen Problemen, erfordern jedoch große Modelle, während prägnante Stile (SoT, CoD) radikale Effizienzgewinne bei klar definierten Aufgaben erzielen. Darüber hinaus identifizieren wir wichtige Verhaltensmuster: kleinere Modelle scheitern häufig daran, Ausgabeanweisungen zu befolgen, und greifen auf Raten zurück, während die Robustheit des Denkens als Funktion der Modellgröße entsteht. Unsere Erkenntnisse bieten einen entscheidenden Leitfaden für die Auswahl optimaler Denkstrategien basierend auf spezifischen Einschränkungen. Wir stellen den Benchmark unter https://github.com/JamesJunyuGuo/Style_Bench als Open Source zur Verfügung.
End-to-End (E2E)-Lösungen haben sich als Mainstream-Ansatz für autonome Fahrzeugsysteme etabliert, wobei Vision-Language-Action (VLA)-Modelle ein neues Paradigma darstellen, das vortrainiertes multimodales Wissen aus Vision-Language Models (VLMs) nutzt, um komplexe reale Umgebungen zu interpretieren und mit ihnen zu interagieren. Diese Methoden sind jedoch weiterhin durch die Einschränkungen des Imitationslernens begrenzt, das Schwierigkeiten hat, physikalische Regeln während des Trainings inhärent zu kodieren. Bestehende Ansätze verlassen sich oft auf komplexe regelbasierte Nachverfeinerungen, verwenden Reinforcement Learning, das weitgehend auf Simulationen beschränkt bleibt, oder nutzen Diffusionsführung, die rechenintensive Gradientenberechnungen erfordert. Um diese Herausforderungen zu bewältigen, stellen wir ReflectDrive vor, ein neuartiges lernbasiertes Framework, das einen Reflexionsmechanismus zur sicheren Trajektoriengenerierung über diskrete Diffusion integriert. Zunächst diskretisieren wir den zweidimensionalen Fahrraum, um ein Aktionscodebuch zu erstellen, das die Verwendung vortrainierter Diffusion Language Models für Planungsaufgaben durch Feinabstimmung ermöglicht. Kern unseres Ansatzes ist ein sicherheitsbewusster Reflexionsmechanismus, der iterative Selbstkorrekturen ohne Gradientenberechnung durchführt. Unsere Methode beginnt mit der zielbedingten Trajektoriengenerierung, um multimodale Fahrverhalten zu modellieren. Darauf aufbauend wenden wir lokale Suchmethoden an, um unsichere Tokens zu identifizieren und machbare Lösungen zu bestimmen, die dann als sichere Anker für eine inpainting-basierte Regeneration dienen. Auf dem NAVSIM-Benchmark bewertet, zeigt ReflectDrive signifikante Vorteile bei der sicherheitskritischen Trajektoriengenerierung und bietet eine skalierbare und zuverlässige Lösung für autonome Fahrzeugsysteme.
Wir schlagen ein Framework vor, das neuronale Modelle dazu befähigt, „während des Hörens“ alltäglicher Geräusche zu „denken“ und dadurch die Leistung bei der Audio-Klassifikation zu verbessern. Angeregt durch jüngste Fortschritte in den Denkfähigkeiten großer Sprachmodelle, adressieren wir zwei zentrale Fragen: (i) Wie kann Denken in bestehende Audio-Klassifikationspipelines integriert werden, um Schlussfolgerungen im Kategorieraum zu ermöglichen und die Leistung zu steigern, und (ii) Kann eine neue Architektur von Grund auf entwickelt werden, die sowohl Denken als auch Skalierung zur Testzeit unterstützt? Wir zeigen, dass unsere Modelle in beiden Szenarien eine verbesserte Klassifikationsgenauigkeit aufweisen. Durch die Nutzung der Skalierung zur Testzeit beobachten wir konsistente Leistungssteigerungen, wenn die Anzahl der abgetasteten Spuren zunimmt. Darüber hinaus evaluieren wir zwei Open-Source-Denkmodelle, GPT-OSS-20B und Qwen3-14B, und zeigen, dass solche Modelle zwar zu Zero-Shot-Schlussfolgerungen fähig sind, ein leichtgewichtiger Ansatz – bei dem nur die Einbettungsmatrix eines eingefrorenen, kleineren Modells wie GPT-2 neu trainiert wird – die Leistung von milliardenparametrigen textbasierten Denkmodellen übertreffen kann.
Die Wahrnehmungsoptimierung wird hauptsächlich durch das Treueziel vorangetrieben, das sowohl semantische Konsistenz als auch allgemeine visuelle Realität sicherstellt, während das adversarische Ziel eine komplementäre Verfeinerung bietet, indem es die wahrnehmungsbezogene Schärfe und feinkörnige Details verbessert. Trotz ihrer zentralen Rolle bleibt die Korrelation zwischen ihrer Wirksamkeit als Optimierungsziele und ihrer Fähigkeit als Metriken zur Bildqualitätsbewertung (IQA) weitgehend unerforscht. In dieser Arbeit führen wir eine systematische Analyse durch und decken eine unerwartete Asymmetrie zwischen Wahrnehmungsoptimierung und -bewertung auf: Treuemetriken, die in der IQA hervorragend abschneiden, sind nicht zwangsläufig effektiv für die Wahrnehmungsoptimierung, wobei diese Fehlausrichtung unter adversarischem Training deutlicher hervortritt. Zudem unterdrücken Diskriminatoren zwar effektiv Artefakte während der Optimierung, bieten ihre gelernten Repräsentationen jedoch nur begrenzte Vorteile, wenn sie als Backbone-Initialisierungen für IQA-Modelle wiederverwendet werden. Über diese Asymmetrie hinaus zeigen unsere Ergebnisse weiterhin, dass das Design des Diskriminators eine entscheidende Rolle bei der Gestaltung der Optimierung spielt, wobei Patch-Level- und Faltungsarchitekturen eine treuere Detailrekonstruktion bieten als herkömmliche oder Transformer-basierte Alternativen. Diese Erkenntnisse vertiefen das Verständnis des Loss-Function-Designs und dessen Verbindung zur Übertragbarkeit von IQA, was den Weg für prinzipiellere Ansätze zur Wahrnehmungsoptimierung ebnet.
Große Audio-Sprachmodelle (Large Audio-Language Models, LALMs) zeigen eine starke Zero-Shot-Fähigkeit bei Sprachaufgaben, was vielversprechend für die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist. Allerdings scheitert SER in realen Einsatzszenarien häufig an Domänenunterschieden, bei denen Quelldaten nicht verfügbar sind und leistungsstarke LALMs nur über eine API zugänglich sind. Wir stellen die Frage: Kann ein Schülermodell, das nur unmarkierte Audio-Daten aus der Zieldomäne und eine API-basierte LALM nutzt, an die Zieldomäne angepasst werden, um die LALM zu übertreffen? Zu diesem Zweck schlagen wir MI-Fuse vor, ein Framework zur fusionierten Etikettierung mit Rauschunterdrückung, das die LALM durch einen in der Quelldomäne trainierten SER-Klassifikator als zusätzlichen Lehrer ergänzt. Das Framework zieht mehrere stochastische Vorhersagen von beiden Lehrern, gewichtet ihre mittleren Verteilungen auf Basis von Unsicherheiten, die auf gegenseitiger Information basieren, und stabilisiert das Training mit einem Lehrer, der einen exponentiell gleitenden Durchschnitt verwendet. Experimente über drei öffentliche Emotionsdatensätze und sechs domänenübergreifende Übertragungen zeigen konsistente Verbesserungen, wobei der Schüler die LALM übertrifft und den stärksten Baseline-Ansatz um 3,9 % übertrifft. Dieser Ansatz stärkt emotionssensitive Sprachsysteme, ohne Quelldaten teilen zu müssen, und ermöglicht eine realistische Anpassung.
Dieses Papier stellt das Hazard-Aware System Card (HASC) vor, einen neuartigen Rahmen, der entwickelt wurde, um Transparenz und Verantwortung bei der Entwicklung und Bereitstellung von KI-Systemen zu verbessern. Das HASC baut auf bestehenden Konzepten von Modellkarten und Systemkarten auf, indem es einen umfassenden, dynamischen Bericht über den Sicherheits- und Sicherheitsstatus eines KI-Systems integriert. Das Rahmenwerk schlägt ein standardisiertes System von Kennzeichnern vor, einschließlich einer neuartigen AI Safety Hazard (ASH) ID, um bestehende Sicherheitskennzeichnungen wie CVEs zu ergänzen und eine klare und konsistente Kommunikation behobener Schwachstellen zu ermöglichen. Indem es eine einzige, zugängliche Quelle der Wahrheit bereitstellt, befähigt das HASC Entwickler und Stakeholder, fundiertere Entscheidungen über die Sicherheit von KI-Systemen während ihres gesamten Lebenszyklus zu treffen. Schließlich vergleichen wir unsere vorgeschlagenen KI-Systemkarten mit dem ISO/IEC 42001:2023-Standard und diskutieren, wie sie sich gegenseitig ergänzen können, um größere Transparenz und Verantwortung für KI-Systeme zu gewährleisten.
Die Erkennung von Hassinhalten ist eine herausfordernde und wichtige Aufgabe. Automatisierte Werkzeuge, wie maschinelle Lernmodelle, können dabei helfen, erfordern jedoch kontinuierliches Training, um sich an die sich ständig verändernde Landschaft der sozialen Medien anzupassen. In dieser Arbeit evaluieren wir die Fähigkeit von acht Open-Source-LLMs, antisemitische Inhalte zu erkennen, wobei wir speziell die In-Kontext-Definition als Richtlinie nutzen. Wir untersuchen verschiedene Prompting-Techniken und entwickeln einen neuen CoT-ähnlichen Prompt, Guided-CoT. Guided-CoT verarbeitet die In-Kontext-Richtlinie effektiv und steigert die Leistung aller evaluierten Modelle, unabhängig von der Dekodierungskonfiguration, der Modellgröße oder der Fähigkeit zur logischen Schlussfolgerung. Bemerkenswerterweise übertrifft Llama 3.1 70B das feinabgestimmte GPT-3.5. Zusätzlich untersuchen wir Fehler der LLMs und führen Metriken ein, um die semantische Abweichung in den von den Modellen generierten Begründungen zu quantifizieren, was bemerkenswerte Unterschiede und paradoxe Verhaltensweisen unter den LLMs aufzeigt. Unsere Experimente verdeutlichen die beobachteten Unterschiede in Bezug auf Nutzen, Erklärbarkeit und Zuverlässigkeit der LLMs.