papers.description
Die rasante Entwicklung großskaliger Modelle hat bedeutende Durchbrüche im Bereich der digitalen Menschen vorangetrieben. Diese fortschrittlichen Methoden bieten hochauflösende Lösungen für das Antreiben und Rendern von Avataren, was die Forschung dazu veranlasst, sich auf die nächste große Herausforderung zu konzentrieren: den audiovisuellen dyadisch interaktiven virtuellen Menschen. Um die Forschung in diesem aufstrebenden Bereich zu unterstützen, stellen wir das SpeakerVid-5M-Dataset vor, das erste großskalige, hochwertige Dataset, das für die Generierung audiovisueller dyadisch interaktiver virtueller Menschen entwickelt wurde. Mit insgesamt über 8.743 Stunden enthält SpeakerVid-5M mehr als 5,2 Millionen Videoclips von menschlichen Porträts. Es deckt verschiedene Skalen und Interaktionstypen ab, darunter monadisches Sprechen, Zuhören und dyadische Gespräche. Entscheidend ist, dass das Dataset entlang zweier Schlüsseldimensionen strukturiert ist: Interaktionstyp und Datenqualität. Erstens wird es basierend auf dem Interaktionsszenario in vier Typen kategorisiert (Dialogzweig, Einzelzweig, Zuhörzweig und Mehrfachzweig). Zweitens wird es in ein großskaliges Pre-Training-Subset und ein kuratiertes, hochwertiges Subset für Supervised Fine-Tuning (SFT) unterteilt. Diese duale Struktur ermöglicht eine Vielzahl von 2D-Aufgaben für virtuelle Menschen. Zusätzlich bieten wir ein autoregressives (AR)-basiertes Video-Chat-Basismodell, das auf diesen Daten trainiert wurde, begleitet von einem speziellen Satz von Metriken und Testdaten, die als Benchmark VidChatBench für zukünftige Arbeiten dienen sollen. Sowohl das Dataset als auch der entsprechende Datenverarbeitungscode werden öffentlich zugänglich gemacht. Projektseite: https://dorniwang.github.io/SpeakerVid-5M/
Die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern sind seit langem ein zentraler Forschungsschwerpunkt. Jüngste Arbeiten haben diese Fähigkeiten durch den Einsatz von Reinforcement Learning (RL) weiter verbessert, wobei viele neue Methoden signifikante Fortschritte mit minimaler oder ohne externe Überwachung beanspruchen. Überraschenderweise deuten einige Studien sogar darauf hin, dass zufällige oder falsche Belohnungssignale die Schlussfolgerungsleistung steigern können. Diese Durchbrüche wurden jedoch hauptsächlich für die Qwen2.5-Modellfamilie berichtet und auf bekannten Benchmarks wie MATH-500, AMC und AIME evaluiert, während ähnliche Erfolge bei anderen Modellen wie Llama ausblieben, was weitere Untersuchungen rechtfertigt. Unsere Analyse zeigt, dass Qwen2.5 zwar eine starke mathematische Schlussfolgerungsleistung erzielt, sein Pretraining auf umfangreichen Webkorpora es jedoch anfällig für Datenkontamination in populären Benchmarks macht. Folglich können die aus diesen Benchmarks abgeleiteten Ergebnisse unzuverlässig sein. Um dies zu adressieren, stellen wir einen Generator vor, der vollständig synthetische arithmetische Probleme beliebiger Länge und Schwierigkeit erzeugt, wodurch ein sauberer Datensatz entsteht, den wir RandomCalculation nennen. Mit diesen kontaminationsfreien Datensätzen zeigen wir, dass nur präzise Belohnungssignale die Leistung konsistent verbessern, während verrauschte oder falsche Signale dies nicht tun. Wir plädieren dafür, RL-Methoden auf unkontaminierten Benchmarks und über diverse Modellfamilien hinweg zu evaluieren, um vertrauenswürdige Schlussfolgerungen zu gewährleisten.
Das Skalieren von Sprachmodellen erschließt beeindruckende Fähigkeiten, doch die damit verbundenen Rechen- und Speicheranforderungen machen sowohl das Training als auch den Einsatz kostspielig. Bestehende Bemühungen zur Effizienzsteigerung zielen typischerweise entweder auf Parameter-Sharing oder adaptive Berechnungen ab, wobei die Frage offen bleibt, wie beides gleichzeitig erreicht werden kann. Wir stellen Mixture-of-Recursions (MoR) vor, ein einheitliches Framework, das beide Effizienzachsen innerhalb eines einzigen rekursiven Transformers kombiniert. MoR verwendet einen gemeinsamen Stapel von Schichten über Rekursionsschritte hinweg, um Parameter-Effizienz zu erreichen, während leichte Router eine adaptive Token-Level-Verarbeitung ermöglichen, indem sie unterschiedliche Rekursionstiefen dynamisch einzelnen Tokens zuweisen. Dies ermöglicht es MoR, die quadratische Aufmerksamkeitsberechnung nur auf die Tokens zu beschränken, die in einer bestimmten Rekursionstiefe noch aktiv sind, und verbessert die Speicherzugriffseffizienz weiter, indem selektiv nur deren Key-Value-Paare zwischengespeichert werden. Neben diesen Kernmechanismen schlagen wir auch eine KV-Sharing-Variante vor, die KV-Paare aus der ersten Rekursion wiederverwendet, speziell entwickelt, um die Prefill-Latenz und den Speicherbedarf zu verringern. Über Modellgrößen von 135M bis 1,7B Parametern hinweg bildet MoR eine neue Pareto-Grenze: Bei gleichen Trainings-FLOPs und kleineren Modellgrößen senkt es die Validierungs-Perplexität signifikant und verbessert die Few-Shot-Genauigkeit, während es einen höheren Durchsatz im Vergleich zu herkömmlichen und bestehenden rekursiven Baselines liefert. Diese Gewinne zeigen, dass MoR ein effektiver Weg ist, um die Qualität großer Modelle zu erreichen, ohne die Kosten großer Modelle zu verursachen.
Aktuelle fortschrittliche Vision-Sprach-Modelle (VLMs) haben starke Leistungen bei passiven, offline Bild- und Video-Verständnisaufgaben gezeigt. Ihre Effektivität in verkörperten Umgebungen, die Online-Interaktion und aktives Szenenverständnis erfordern, bleibt jedoch begrenzt. In solchen Szenarien nimmt ein Agent die Umgebung aus einer Ego-Perspektive wahr, wobei jede Aktion die nachfolgenden Beobachtungen dynamisch beeinflusst. Selbst state-of-the-art Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro haben Schwierigkeiten in offenen Umgebungsinteraktionen und zeigen deutliche Einschränkungen in der räumlichen Argumentation und der langfristigen Planung. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, einen Datensatz mit über 3.000 sprachgesteuerten Aufgaben, die in vielfältigen, fotorealistischen Umgebungen angesiedelt sind, die mit Unreal Engine und dem UnrealCV-Zoo-Framework erstellt wurden. Die Aufgaben umfassen eine breite Palette von verkörperten Herausforderungen, einschließlich Navigation, Objektmanipulation und mehrstufiger Zielausführung. Jede Aufgabe entfaltet sich als mehrstufige Trajektorie, die Ego-Perspektiv-Visualbeobachtungen mit hochrangigen Anweisungen, fundierten Aktionen und natürlichen Sprachbegründungen kombiniert, die die Absicht des Agents in jedem Schritt ausdrücken. Mit EmRACE-3K etablieren wir einen Benchmark, um die verkörperten Argumentationsfähigkeiten von VLMs in drei Schlüsseldimensionen zu bewerten: Exploration, dynamische räumlich-semantische Argumentation und mehrstufige Zielausführung. In Zero-Shot-Szenarien erreichen alle Modelle Erfolgsquoten von unter 20 %, was die Herausforderung unseres Benchmarks und die aktuellen Grenzen von VLMs in interaktiven Umgebungen unterstreicht. Um den Nutzen von EmRACE-3K zu demonstrieren, feintunen wir Qwen2.5-VL-7B weiter mit überwachtem Lernen gefolgt von verstärkendem Lernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Herausforderungskategorien und unterstreicht die Effektivität des Datensatzes bei der Entwicklung verkörperter Argumentationsfähigkeiten.
Aktuelle Large Reasoning Models (LRMs) haben bemerkenswerte Fortschritte auf aufgabenspezifischen Benchmarks erzielt, doch ihre Evaluierungsmethoden bleiben durch isolierte Problemlösungsparadigmen eingeschränkt. Bestehende Benchmarks bewerten vorwiegend das Einzelfragen-Reasoning durch sequenzielles Testen, was zu kritischen Einschränkungen führt: (1) Anfälligkeit für Datenkontamination und geringere Herausforderung (z. B. erreicht DeepSeek-R1 97,0 % auf MATH500), was die kostspielige und fortwährende Erstellung neuer Fragen mit großem menschlichem Aufwand erzwingt, (2) Versagen bei der Bewertung von Modellen unter Mehrkontextdruck, einer Schlüsselvoraussetzung für den realen Einsatz. Um diese Lücke zu schließen, präsentieren wir REST (Reasoning Evaluation through Simultaneous Testing), ein Stress-Test-Framework, das LRMs gleichzeitig mehreren Problemen aussetzt. Über grundlegendes Reasoning hinaus bewertet REST speziell mehrere unterschätzte Fähigkeiten: kontextbezogene Prioritätszuweisung, Widerstandsfähigkeit gegen Problemübergreifende Interferenzen und dynamisches kognitives Lastmanagement. Unsere Evaluation zeigt mehrere bemerkenswerte Erkenntnisse: Selbst State-of-the-Art (SOTA)-Modelle wie DeepSeek-R1 weisen unter Stress-Tests erhebliche Leistungseinbußen auf. Entscheidend ist, dass REST eine stärkere Diskriminierungsfähigkeit als bestehende Benchmarks zeigt und deutliche Leistungsunterschiede zwischen Modellen offenbart, die bei Einzelfragen-Evaluierungen ähnliche, nahezu maximale Leistung zeigen. Einige wichtige mechanistische Erkenntnisse ergeben sich aus unserer Analyse: (1) Die „Overthinking-Falle“ ist ein kritischer Faktor, der zur Leistungsverschlechterung beiträgt; (2) Modelle, die mit der „Long2Short“-Technik trainiert wurden, bewahren mehr Genauigkeit ihres Einzelproblem-Reasonings unter REST und übertreffen damit standardmäßig trainierte Gegenstücke. Diese Ergebnisse etablieren REST als ein kosteneffizientes, zukunftssicheres Evaluierungsparadigma, das die Anforderungen des realen Reasonings besser widerspiegelt und gleichzeitig die Abhängigkeit von kontinuierlicher menschlicher Annotation reduziert.
Große Sprachmodelle (LLMs) zeichnen sich durch ein hohes Maß an natürlichem Sprachverständnis und -generierung aus, bleiben jedoch anfällig für faktische Fehler, was ihre Zuverlässigkeit bei wissensintensiven Aufgaben einschränkt. Während Dekodierungszeitstrategien eine vielversprechende und effiziente Lösung ohne zusätzliches Training bieten, behandeln bestehende Methoden typischerweise Token- und Ebenensignale isoliert und vernachlässigen dabei die gemeinsame Dynamik zwischen ihnen. In dieser Arbeit führen wir eine tokenbewusste, ebenenlokalisierte kontrastive Dekodierungsmethode ein, die spezifische Tokentypen mit ihren einflussreichsten Transformer-Ebenen abstimmt, um die faktische Generierung zu verbessern. Durch empirische Aufmerksamkeitsanalyse identifizieren wir zwei Schlüsselmuster: Satzzeichen-Tokens erhalten in frühen Ebenen dominante Aufmerksamkeit, während konzeptuelle Tokens das semantische Denken in mittleren Ebenen steuern. Durch die selektive Unterdrückung der Aufmerksamkeit für diese Tokentypen in ihren jeweiligen Tiefen erreichen wir die Induktion einer kontrollierten faktischen Degradation und leiten kontrastive Signale ab, um die endgültige faktische Dekodierung zu steuern. Unsere Methode erfordert kein zusätzliches Training oder Modifikationen am Modell, und Experimente zeigen, dass unsere Methode die Faktentreue über mehrere LLMs und verschiedene Benchmarks hinweg konsistent verbessert.
Kürzlich hat die Rolle von LLM-as-Judge bei der Bewertung großer Sprachmodelle an Bedeutung gewonnen. Allerdings leiden aktuelle Richtermodelle unter enger Spezialisierung und begrenzter Robustheit, was ihre Fähigkeit zu umfassenden Bewertungen beeinträchtigt. In dieser Arbeit stellen wir CompassJudger-2 vor, ein neuartiges generalistisches Richtermodell, das diese Einschränkungen durch eine aufgabengetriebene, multidisziplinäre Datenkuratierungsstrategie überwindet. Kern unseres Ansatzes ist die Überwachung von Bewertungsaufgaben mit überprüfbaren Belohnungen, die intrinsisches kritisches Denken durch Ablehnungsstichproben fördern, um robuste, verallgemeinerbare Bewertungsfähigkeiten zu entwickeln. Wir führen ein verfeinertes Lernziel mit Margin-Policy-Gradient-Verlust ein, um die Leistung zu steigern. Empirisch erzielt CompassJudger-2 überlegene Ergebnisse in mehreren Richter- und Belohnungsbenchmarks, und unser 7B-Modell zeigt eine wettbewerbsfähige Bewertungsgenauigkeit im Vergleich zu deutlich größeren Modellen wie DeepSeek-V3 und Qwen3-235B-A22B. Zusätzlich schlagen wir JudgerBenchV2 vor, einen umfassenden Benchmark, der die domänenübergreifende Bewertungsgenauigkeit und Rangkonsistenz evaluiert, um die Bewertung von Richtermodellen zu standardisieren. Diese Beiträge fördern robuste, skalierbare LLM-Bewertungen und setzen neue Leistungs- und Bewertungsstandards.
Wir stellen MoVieS vor, ein neuartiges Feed-Forward-Modell, das 4D-dynamische neue Ansichten aus monokularen Videos in einer Sekunde synthetisiert. MoVieS repräsentiert dynamische 3D-Szenen mithilfe von pixelausgerichteten Gittern aus Gaußschen Primitiven und überwacht explizit deren zeitlich variierende Bewegung. Dies ermöglicht erstmals die einheitliche Modellierung von Erscheinungsbild, Geometrie und Bewegung und erlaubt Ansichtssynthese, Rekonstruktion und 3D-Punktverfolgung innerhalb eines einzigen lernbasierten Frameworks. Durch die Verbindung von neuartiger Ansichtssynthese mit dynamischer Geometrierekonstruktion ermöglicht MoVieS groß angelegtes Training auf diversen Datensätzen mit minimaler Abhängigkeit von aufgabenspezifischer Überwachung. Dadurch unterstützt es auch natürlich eine breite Palette von Zero-Shot-Anwendungen, wie Szenenfluss-Schätzung und bewegte Objektsegmentierung. Umfangreiche Experimente validieren die Effektivität und Effizienz von MoVieS über mehrere Aufgaben hinweg, wobei es wettbewerbsfähige Leistungen erzielt und gleichzeitig eine um mehrere Größenordnungen höhere Geschwindigkeit bietet.
Die Entwicklung von Large Language Models (LLMs) erfordert robuste Benchmarks, die nicht nur akademische Bereiche, sondern auch industrielle Felder abdecken, um ihre Anwendbarkeit in realen Szenarien effektiv zu bewerten. In diesem Artikel stellen wir zwei koreanische Benchmarks auf Expertenniveau vor. KMMLU-Redux, das aus dem bestehenden KMMLU rekonstruiert wurde, besteht aus Fragen der koreanischen Nationalen Technischen Qualifikationsprüfungen, bei denen kritische Fehler entfernt wurden, um die Zuverlässigkeit zu erhöhen. KMMLU-Pro basiert auf den koreanischen Nationalen Berufszulassungsprüfungen, um Fachwissen in Korea widerzuspiegeln. Unsere Experimente zeigen, dass diese Benchmarks das industrielle Wissen in Korea umfassend repräsentieren. Wir stellen unser Dataset öffentlich zur Verfügung.
Die Verbesserung des mathematischen Denkens von Large Language Models (LLMs) stellt eine zentrale Herausforderung bei der Weiterentwicklung von KI-Fähigkeiten dar. Während Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) die dominierenden Trainingsparadigmen sind, bleibt eine systematische Methodik zur Kombination dieser Ansätze, um sowohl Genauigkeit als auch Effizienz zu maximieren, weitgehend unerforscht. Dieses Papier stellt ein praktisches und effektives Trainingsrezept vor, das strategisch erweitertes SFT mit RL aus Online-Inferenz (GRPO) integriert. Wir postulieren, dass diese Methoden komplementäre und nicht konkurrierende Rollen spielen: Eine verlängerte SFT-Phase treibt zunächst die Genauigkeit des Modells an seine Grenzen, woraufhin eine GRPO-Phase die Token-Effizienz dramatisch verbessert, während diese Spitzenleistung erhalten bleibt. Unsere Experimente zeigen, dass eine Verlängerung des SFT über bis zu 10 Epochen entscheidend für Leistungsdurchbrüche ist und dass die primäre Rolle von GRPO in diesem Rahmen darin besteht, die Lösungslänge zu optimieren. Die Wirksamkeit unseres Rezepts wird durch Spitzenleistungen auf anspruchsvollen Benchmarks rigoros validiert, einschließlich eines hohen Rangs unter über 2.200 Teams in der streng leckfreien AI Mathematical Olympiad (AIMO). Diese Arbeit bietet der Gemeinschaft einen erprobten Leitfaden für die Entwicklung von mathematischen Denkmodellen, die sowohl außergewöhnlich genau als auch praktisch effizient sind. Um vollständige Reproduzierbarkeit zu gewährleisten und zukünftige Forschung zu ermöglichen, werden wir unser gesamtes Framework, einschließlich aller Codes, Modell-Checkpoints und Trainingskonfigurationen, unter https://github.com/analokmaus/kaggle-aimo2-fast-math-r1 open-source zur Verfügung stellen.
Wir präsentieren DreamPoster, ein Text-zu-Bild-Generierungsframework, das hochwertige Poster aus benutzerbereitgestellten Bildern und Textanweisungen intelligent synthetisiert, dabei die Inhaltsgenauigkeit bewahrt und flexible Auflösungs- sowie Layout-Ausgaben unterstützt. Insbesondere basiert DreamPoster auf unserem T2I-Modell, Seedream3.0, um verschiedene Postergenerierungstypen einheitlich zu verarbeiten. Für die Datensatzkonstruktion schlagen wir einen systematischen Datenannotationspipeline vor, der den Textinhalt und typografische Hierarchieinformationen innerhalb von Posterbildern präzise annotiert, während umfassende Methoden zur Konstruktion gepaarter Datensätze eingesetzt werden, die Quellmaterialien (z. B. Rohgrafiken/Text) und ihre entsprechenden finalen Posterausgaben umfassen. Zusätzlich implementieren wir eine progressive Trainingsstrategie, die es dem Modell ermöglicht, hierarchisch Multitask-Generierungsfähigkeiten zu erwerben, während eine hochwertige Generierung aufrechterhalten wird. Bewertungen auf unseren Testbenchmarks demonstrieren die Überlegenheit von DreamPoster gegenüber bestehenden Methoden, wobei eine hohe Nutzbarkeitsrate von 88,55 % erreicht wird, verglichen mit GPT-4o (47,56 %) und SeedEdit3.0 (25,96 %). DreamPoster wird in Jimeng und anderen Bytedance-Apps online verfügbar sein.
Dieses Papier stellt eine neuartige Methode der ausführbaren Steganographie vor, bei der die Alpha-Transparenzschicht von ICO-Bilddateien genutzt wird, um selbstentpackende JavaScript-Payloads in Webbrowsern einzubetten und zu übermitteln. Durch die Zielsetzung auf das Least Significant Bit (LSB) der nicht-transparenten Alpha-Schicht-Bildwerte gelingt es der vorgeschlagenen Methode, komprimierten JavaScript-Code in einem Favicon-Bild zu verbergen, ohne die visuelle Qualität zu beeinträchtigen. Weltweiter Webverkehr lädt täglich 294 Milliarden Favicons und verbraucht dabei 0,9 Petabyte an Netzwerkbandbreite. Eine Proof-of-Concept-Implementierung zeigt, dass ein 64x64 ICO-Bild bis zu 512 Bytes unkomprimiert oder 0,8 Kilobyte bei Verwendung einer leichten zweifachen Kompression einbetten kann. Beim Laden einer Seite holt der Browser das Favicon als Teil des Standardverhaltens ab, wodurch ein eingebettetes Ladeskript die Payload vollständig im Speicher extrahieren und ausführen kann, indem native JavaScript-APIs und Canvas-Pixelzugriff genutzt werden. Dies schafft einen zweistufigen verdeckten Kanal, der keine zusätzlichen Netzwerk- oder Benutzeranfragen erfordert. Tests über mehrere Browser in Desktop- und Mobilumgebungen bestätigen die erfolgreiche und geräuschlose Ausführung des eingebetteten Skripts. Wir bewerten das Bedrohungsmodell, setzen es in Bezug zu polymorphen Phishing-Angriffen, die Favicon-basierte Erkennung umgehen, und analysieren die Umgehung von Content-Security-Policies und Antiviren-Scannern. Wir ordnen neun Beispielziele des MITRE ATT&CK Frameworks einer einzelnen Zeile JavaScript zu, die beliebig in ICO-Dateien ausgeführt werden kann. Bestehende Steganalyse- und Sanitizer-Verteidigungen werden diskutiert, wobei die Grenzen bei der Erkennung oder Neutralisierung von Alpha-Kanal-Exploits hervorgehoben werden. Die Ergebnisse zeigen eine unauffällige und wiederverwendbare Angriffsfläche, die traditionelle Grenzen zwischen statischen Bildern und ausführbarem Inhalt verwischt. Da moderne Browser stille Fehler melden, wenn Entwickler speziell das Laden von ICO-Dateien nicht berücksichtigen, bietet diese Angriffsfläche ein interessantes Beispiel für erforderliche Webverhaltensweisen, die wiederum die Sicherheit gefährden.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich des natürlichen Sprachverständnisses und der Sprachgenerierung gezeigt, weisen jedoch Probleme mit der logischen Konsistenz in ihren generierten Ausgaben auf. Wie können wir das breit gefächerte parametrische Wissen von LLMs für formales Schließen nutzen, trotz ihrer Inkonsistenz? Wir präsentieren eine Methode zur direkten Integration eines LLMs in die Interpretationsfunktion der formalen Semantik einer parakonsistenten Logik. Wir liefern experimentelle Belege für die Machbarkeit der Methode, indem wir die Funktion anhand von Datensätzen evaluieren, die aus mehreren Kurzform-Faktizitätsbenchmarks erstellt wurden. Im Gegensatz zu früheren Arbeiten bietet unsere Methode einen theoretischen Rahmen für neuro-symbolisches Schließen, der das Wissen eines LLMs nutzt, während die Korrektheits- und Vollständigkeitseigenschaften der zugrunde liegenden Logik erhalten bleiben.