Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das universelle photometrische Stereo (PS) zielt darauf ab, hochwertige Oberflächennormalen von Objekten unter beliebigen Beleuchtungsbedingungen zu rekonstruieren, ohne sich auf spezifische Beleuchtungsmodelle zu verlassen. Trotz jüngster Fortschritte wie SDM-UniPS und Uni MS-PS bestehen zwei grundlegende Herausforderungen fort: 1) die tiefe Kopplung zwischen variierender Beleuchtung und Oberflächennormalenmerkmalen, wobei die Mehrdeutigkeit der beobachteten Intensität es schwierig macht, zu bestimmen, ob Helligkeitsvariationen auf Beleuchtungsänderungen oder Oberflächenorientierungen zurückzuführen sind; und 2) die Erhaltung hochfrequenter geometrischer Details in komplexen Oberflächen, bei denen intricate Geometrien Selbstschatten, Interreflexionen und subtile Normalenvariationen erzeugen, die konventionelle Merkmalsverarbeitungsoperationen nur unzureichend genau erfassen können.
In dieser Arbeit stellen wir OmniGen2 vor, ein vielseitiges und quelloffenes generatives Modell, das eine einheitliche Lösung für diverse Generierungsaufgaben bietet, einschließlich Text-zu-Bild, Bildbearbeitung und In-Kontext-Generierung. Im Gegensatz zu OmniGen v1 verfügt OmniGen2 über zwei separate Dekodierungspfade für Text- und Bildmodalitäten, die ungeteilte Parameter und einen entkoppelten Bild-Tokenizer verwenden. Dieser Entwurf ermöglicht es OmniGen2, auf bestehenden multimodalen Verständnismodellen aufzubauen, ohne die VAE-Eingaben neu anpassen zu müssen, wodurch die ursprünglichen Textgenerierungsfähigkeiten erhalten bleiben. Um das Training von OmniGen2 zu erleichtern, haben wir umfassende Datenkonstruktionspipelines entwickelt, die Bildbearbeitungs- und In-Kontext-Generierungsdaten umfassen. Zusätzlich führen wir einen Reflexionsmechanismus ein, der speziell für Bildgenerierungsaufgaben entwickelt wurde, und kuratieren ein dediziertes Reflexionsdatenset basierend auf OmniGen2. Trotz seiner relativ bescheidenen Parametergröße erzielt OmniGen2 wettbewerbsfähige Ergebnisse in mehreren Aufgaben-Benchmarks, einschließlich Text-zu-Bild und Bildbearbeitung. Um die In-Kontext-Generierung, auch als subjektgetriebene Aufgaben bezeichnet, weiter zu evaluieren, führen wir einen neuen Benchmark namens OmniContext ein. OmniGen2 erreicht state-of-the-art Leistungen unter quelloffenen Modellen in Bezug auf Konsistenz. Wir werden unsere Modelle, Trainingscode, Datensätze und Datenkonstruktionspipeline veröffentlichen, um zukünftige Forschung in diesem Bereich zu unterstützen. Projektseite: https://vectorspacelab.github.io/OmniGen2; GitHub-Link: https://github.com/VectorSpaceLab/OmniGen2
Die Erzeugung ultra-langer Texte durch große Sprachmodelle (LLMs) ist ein weit verbreitetes Anwendungsszenario, stellt jedoch aufgrund der maximalen Generierungslänge und der allgemeinen Qualitätsverschlechterung bei zunehmender Sequenzlänge eine erhebliche Herausforderung dar. Bisherige Ansätze, wie beispielsweise LongWriter, basieren typischerweise auf „Lehrmethoden“, die eine überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) auf synthetischen Langform-Ausgaben beinhalten. Diese Strategie ist jedoch stark von synthetischen SFT-Daten abhängig, die schwierig und kostspielig zu erstellen sind, oft an Kohärenz und Konsistenz mangeln und tendenziell zu künstlich und strukturell monoton wirken. In dieser Arbeit schlagen wir einen anreizbasierten Ansatz vor, der vollständig von Grund auf und ohne Verwendung von annotierten oder synthetischen Daten auf Reinforcement Learning (RL) setzt, um die Fähigkeit zur Erzeugung ultra-langer, hochwertiger Texte in LLMs zu fördern. Wir führen RL-Training ausgehend von einem Basismodell, ähnlich wie R1-Zero, durch und leiten es an, Überlegungen anzustellen, die Planung und Verfeinerung während des Schreibprozesses unterstützen. Um dies zu ermöglichen, verwenden wir spezialisierte Belohnungsmodelle, die das LLM in Richtung verbesserter Längensteuerung, Schreibqualität und struktureller Formatierung lenken. Experimentelle Auswertungen zeigen, dass unser LongWriter-Zero-Modell, trainiert auf Qwen2.5-32B, traditionelle SFT-Methoden bei Langform-Schreibaufgaben durchgehend übertrifft und auf WritingBench und Arena-Write in allen Metriken state-of-the-art Ergebnisse erzielt, wobei es sogar 100B+ Modelle wie DeepSeek R1 und Qwen3-235B übertrifft. Wir stellen unsere Daten und Modell-Checkpoints unter https://huggingface.co/THU-KEG/LongWriter-Zero-32B als Open Source zur Verfügung.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zeigt vielversprechendes Potenzial bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens. Der Erfolg bleibt jedoch weitgehend auf mathematische und Programmierdomänen beschränkt. Diese primäre Einschränkung ergibt sich aus der starken Abhängigkeit von domänenspezifischen Verifizierern, was zu einer prohibitiv hohen Komplexität und begrenzten Skalierbarkeit führt. Um diese Herausforderung zu bewältigen, liegt unsere zentrale Beobachtung darin, dass die intrinsische Wahrscheinlichkeit eines LLMs, eine korrekte freiformulierte Antwort zu generieren, direkt seine eigene Bewertung der Belohnung für den Denkprozess widerspiegelt (d. h., wie gut der Denkprozess zur korrekten Antwort führt). Aufbauend auf dieser Erkenntnis schlagen wir RLPR vor, ein einfaches, verifiziererfreies Framework, das RLVR auf breitere allgemeine Domänen ausweitet. RLPR verwendet die Token-Wahrscheinlichkeitswerte des LLMs für Referenzantworten als Belohnungssignal und maximiert die erwartete Belohnung während des Trainings. Wir stellen fest, dass die Bewältigung der hohen Varianz dieses verrauschten Wahrscheinlichkeits-Belohnungssignals entscheidend ist, um es zum Funktionieren zu bringen, und schlagen prob-to-reward- und Stabilisierungsmethoden vor, um eine präzise und stabile Belohnung aus den intrinsischen Wahrscheinlichkeiten des LLMs sicherzustellen. Umfassende Experimente in vier allgemeinen Benchmark-Domänen und drei mathematischen Benchmarks zeigen, dass RLPR die Denkfähigkeiten in beiden Bereichen für Gemma-, Llama- und Qwen-basierte Modelle konsequent verbessert. Bemerkenswerterweise übertrifft RLPR das konkurrierende VeriFree um 7,6 Punkte auf TheoremQA und 7,5 Punkte auf Minerva und übertrifft sogar starke verifiziererabhängige Ansätze wie General-Reasoner um durchschnittlich 1,6 Punkte über sieben Benchmarks hinweg.
Dynamic Novel View Synthesis zielt darauf ab, fotorealistische Ansichten von sich bewegenden Objekten aus beliebigen Blickwinkeln zu generieren. Diese Aufgabe ist besonders herausfordernd, wenn man sich auf monokulare Videos verlässt, da die Trennung von Struktur und Bewegung in diesem Fall schlecht gestellt ist und die verfügbare Supervision begrenzt ist. Wir stellen Video Diffusion-Aware Reconstruction (ViDAR) vor, ein neuartiges 4D-Rekonstruktionsframework, das personalisierte Diffusionsmodelle nutzt, um ein pseudo-mehransichtiges Supervisionssignal für das Training einer Gaussian-Splatting-Darstellung zu synthetisieren. Durch die Konditionierung auf szenenspezifische Merkmale stellt ViDAR fein abgestufte Erscheinungsdetails wieder her und reduziert gleichzeitig Artefakte, die durch monokulare Mehrdeutigkeit entstehen. Um die räumlich-zeitliche Inkonsistenz der diffusionsbasierten Supervision zu adressieren, schlagen wir eine diffusionsbewusste Verlustfunktion und eine Kameraposenoptimierungsstrategie vor, die synthetische Ansichten mit der zugrunde liegenden Szenengeometrie in Einklang bringt. Experimente auf DyCheck, einem anspruchsvollen Benchmark mit extremen Blickwinkelvariationen, zeigen, dass ViDAR alle state-of-the-art Baselines in Bezug auf visuelle Qualität und geometrische Konsistenz übertrifft. Wir heben außerdem die deutliche Verbesserung von ViDAR gegenüber den Baselines in dynamischen Regionen hervor und stellen einen neuen Benchmark vor, um die Leistung bei der Rekonstruktion bewegungsreicher Teile der Szene zu vergleichen. Projektseite: https://vidar-4d.github.io
Process Reward Models (PRMs) haben sich kürzlich als leistungsstarkes Framework zur Überwachung von Zwischenschritten in der Argumentation großer Sprachmodelle (LLMs) etabliert. Bisherige PRMs werden hauptsächlich auf den endgültigen Modellausgaben trainiert und haben Schwierigkeiten, Zwischendenkpfade robust zu bewerten, insbesondere in dem aufkommenden Kontext von Trajektorie-Antwort-Ausgaben, die von fortschrittlichen Reasoning-Modellen wie Deepseek-R1 generiert werden. In dieser Arbeit stellen wir ReasonFlux-PRM vor, ein neuartiges, trajektoriebewusstes PRM, das speziell zur Bewertung von Trajektorie-Antwort-artigen Reasoning-Spuren entwickelt wurde. ReasonFlux-PRM integriert sowohl schrittweise als auch trajektoriebezogene Überwachung, wodurch eine fein abgestufte Belohnungszuweisung ermöglicht wird, die mit strukturierten Chain-of-Thought-Daten abgestimmt ist. Wir passen ReasonFlux-PRM an, um Belohnungsüberwachung sowohl in Offline- als auch Online-Szenarien zu unterstützen, einschließlich (i) der Auswahl hochwertiger Modell-Distillationsdaten für das nachgelagerte Supervised Fine-Tuning kleinerer Modelle, (ii) der Bereitstellung dichter prozessbezogener Belohnungen für die Policy-Optimierung während des Reinforcement Learning und (iii) der Ermöglichung von belohnungsgesteuertem Best-of-N-Test-Time-Scaling. Empirische Ergebnisse auf anspruchsvollen nachgelagerten Benchmarks wie AIME, MATH500 und GPQA-Diamond zeigen, dass ReasonFlux-PRM-7B qualitativ hochwertigere Daten auswählt als starke PRMs (z. B. Qwen2.5-Math-PRM-72B) und von Menschen kuratierte Baselines. Darüber hinaus erzielt unser abgeleitetes ReasonFlux-PRM-7B konsistente Leistungsverbesserungen, mit durchschnittlichen Steigerungen von 12,1 % beim Supervised Fine-Tuning, 4,5 % beim Reinforcement Learning und 6,3 % beim Test-Time-Scaling. Wir veröffentlichen auch unser effizientes ReasonFlux-PRM-1.5B für ressourcenbeschränkte Anwendungen und Edge-Deployment. Projekte: https://github.com/Gen-Verse/ReasonFlux
Die Subjekt-zu-Video-Generierung hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stehen bestehende Modelle weiterhin vor erheblichen Herausforderungen, wenn es darum geht, textuelle Anweisungen treu zu befolgen. Diese Einschränkung, allgemein als das Copy-Paste-Problem bekannt, resultiert aus dem weit verbreiteten In-Pair-Trainingsparadigma. Dieser Ansatz verknüpft die Identität des Subjekts inhärent mit Hintergrund- und Kontextattributen, indem Referenzbilder aus derselben Szene wie das Zielvideo entnommen werden. Um dieses Problem zu lösen, stellen wir Phantom-Data vor, den ersten allgemeinen Cross-Pair-Datensatz für Subjekt-zu-Video-Konsistenz, der etwa eine Million identitätskonsistente Paare über diverse Kategorien hinweg enthält. Unser Datensatz wird über eine dreistufige Pipeline erstellt: (1) ein allgemeines und inputausgerichtetes Subjekterkennungsmodul, (2) groß angelegte Cross-Kontext-Subjektsuche aus mehr als 53 Millionen Videos und 3 Milliarden Bildern sowie (3) prioritätsgesteuerte Identitätsverifikation, um visuelle Konsistenz bei kontextuellen Variationen sicherzustellen. Umfassende Experimente zeigen, dass das Training mit Phantom-Data die Prompt-Ausrichtung und visuelle Qualität signifikant verbessert, während die Identitätskonsistenz auf dem Niveau der In-Pair-Baselines erhalten bleibt.
Kürzlich ist Agentic AI zu einem zunehmend populären Forschungsgebiet geworden. Wir argumentieren jedoch, dass die aktuellen Forschungspraktiken im Bereich der Agenten an Standardisierung und wissenschaftlicher Strenge mangeln, was faire Vergleiche zwischen Methoden erschwert. Infolgedessen ist nach wie vor unklar, wie sich verschiedene Designentscheidungen in Agenten- Frameworks auf die Effektivität auswirken, und die Messung ihrer Fortschritte bleibt eine Herausforderung. In dieser Arbeit führen wir eine systematische empirische Studie zum GAIA- Benchmark und BrowseComp durch, um die Auswirkungen beliebter Designentscheidungen in zentralen Agentenkomponenten auf faire und rigorose Weise zu untersuchen. Wir stellen fest, dass das Fehlen eines standardisierten Evaluationsprotokolls frühere Arbeiten, selbst Open-Source-Projekte, nicht reproduzierbar macht, mit erheblichen Schwankungen zwischen zufälligen Durchläufen. Daher führen wir ein robusteres Evaluationsprotokoll ein, um Vergleiche zu stabilisieren. Unsere Studie zeigt, welche Komponenten und Designs für effektive Agenten entscheidend sind, während andere redundant sind, obwohl sie logisch erscheinen mögen. Basierend auf unseren Erkenntnissen entwickeln und veröffentlichen wir OAgents, ein neues Foundation-Agenten-Framework, das state-of-the-art-Leistungen unter Open-Source-Projekten erreicht. OAgents bietet ein modulares Design für verschiedene Agentenkomponenten und fördert zukünftige Forschung in Agentic AI.
Dieses Papier stellt ein multimodales Framework vor, das versucht, visuelles Verständnis und Generierung innerhalb einer gemeinsamen diskreten semantischen Repräsentation zu vereinen. Im Kern steht der Text-Aligned Tokenizer (TA-Tok), der Bilder mithilfe eines textausgerichteten Codebuchs, das aus dem Vokabular eines großen Sprachmodells (LLM) projiziert wird, in diskrete Tokens umwandelt. Durch die Integration von Vision und Text in einen einheitlichen Raum mit einem erweiterten Vokabular ermöglicht unser multimodales LLM, Tar, cross-modale Ein- und Ausgaben über eine gemeinsame Schnittstelle, ohne dass modalspezifische Designs erforderlich sind. Zusätzlich schlagen wir eine skalierungsadaptive Kodierung und Dekodierung vor, um Effizienz und visuelle Detailtreue auszugleichen, sowie einen generativen De-Tokenizer, um hochwertige visuelle Ausgaben zu erzeugen. Um verschiedenen Dekodierungsanforderungen gerecht zu werden, nutzen wir zwei komplementäre De-Tokenizer: ein schnelles autoregressives Modell und ein diffusionsbasiertes Modell. Um die Modalfusion zu verbessern, untersuchen wir fortgeschrittene Pre-Training-Aufgaben, die Verbesserungen sowohl im visuellen Verständnis als auch in der Generierung demonstrieren. Experimente über verschiedene Benchmarks zeigen, dass Tar bestehende multimodale LLM-Methoden erreicht oder übertrifft, wobei es eine schnellere Konvergenz und eine höhere Trainingseffizienz erreicht. Code, Modelle und Daten sind unter https://tar.csuhan.com verfügbar.
Wir schlagen einen neuartigen Speichermechanismus vor, um Video-Generatoren zu entwickeln, die Umgebungen interaktiv erkunden können. Ähnliche Ergebnisse wurden bisher durch das Out-Painting von 2D-Ansichten der Szene bei gleichzeitiger inkrementeller Rekonstruktion ihrer 3D-Geometrie erzielt, was jedoch schnell zu Fehlerakkumulation führt, oder durch Video-Generatoren mit einem kurzen Kontextfenster, die Schwierigkeiten haben, die Szenenkohärenz langfristig aufrechtzuerhalten. Um diese Einschränkungen zu überwinden, führen wir das Surfel-Indexed View Memory (VMem) ein, einen Mechanismus, der vergangene Ansichten speichert, indem er sie geometrisch basierend auf den beobachteten 3D-Oberflächenelementen (Surfels) indiziert. VMem ermöglicht die effiziente Abfrage der relevantesten vergangenen Ansichten bei der Generierung neuer Ansichten. Indem sich unsere Methode nur auf diese relevanten Ansichten konzentriert, erzeugt sie konsistente Erkundungen imaginierter Umgebungen bei einem Bruchteil der Rechenkosten im Vergleich zur Verwendung aller vergangenen Ansichten als Kontext. Wir evaluieren unseren Ansatz anspruchsvoller Langzeit-Szenensynthese-Benchmarks und demonstrieren eine überlegene Leistung im Vergleich zu bestehenden Methoden in Bezug auf die Aufrechterhaltung der Szenenkohärenz und der Kamerasteuerung.
Wir stellen DIP vor, eine neuartige unüberwachte Nachtrainingsmethode, die entwickelt wurde, um dichte Bildrepräsentationen in groß angelegten vortrainierten Vision-Encodern für das kontextbezogene Szenenverständnis zu verbessern. Im Gegensatz zu früheren Ansätzen, die auf komplexe Selbst-Distillationsarchitekturen angewiesen sind, trainiert unsere Methode den Vision-Encoder mithilfe von Pseudo-Aufgaben, die explizit nachgelagerte kontextbezogene Szenarien simulieren, inspiriert durch Meta-Lern-Prinzipien. Um das Nachtraining auf unmarkierten Daten zu ermöglichen, schlagen wir einen automatischen Mechanismus zur Generierung von kontextbezogenen Aufgaben vor, der ein vortrainiertes Diffusionsmodell und den Vision-Encoder selbst kombiniert. DIP ist einfach, unüberwacht und recheneffizient, benötigt weniger als 9 Stunden auf einer einzelnen A100-GPU. Durch das Lernen dichter Repräsentationen über Pseudo-kontextbezogene Aufgaben erzielt es eine starke Leistung über eine Vielzahl von nachgelagerten realen kontextbezogenen Szenenverständnisaufgaben. Es übertrifft sowohl den ursprünglichen Vision-Encoder als auch frühere Methoden und bietet eine praktische und effektive Lösung zur Verbesserung dichter Repräsentationen. Code verfügbar hier: https://github.com/sirkosophia/DIP
Wir stellen RealPlay vor, eine auf neuronalen Netzwerken basierende Echtwelt-Spiel-Engine, die die interaktive Videogenerierung aus Benutzersteuersignalen ermöglicht. Im Gegensatz zu früheren Arbeiten, die sich auf spielähnliche Visuals konzentrierten, zielt RealPlay darauf ab, fotorealistische, zeitlich konsistente Videosequenzen zu erzeugen, die realen Aufnahmen ähneln. Es arbeitet in einer interaktiven Schleife: Benutzer beobachten eine generierte Szene, geben ein Steuerkommando ab und erhalten als Antwort einen kurzen Videoclip. Um eine derart realistische und reaktionsschnelle Generierung zu ermöglichen, adressieren wir Schlüsselherausforderungen, darunter iterative, abschnittsweise Vorhersage für niedrige Latenz, zeitliche Konsistenz über Iterationen hinweg und präzise Steuerungsreaktion. RealPlay wird mit einer Kombination aus beschrifteten Spieledaten und unbeschrifteten Echtwelt-Videos trainiert, ohne dass Annotationen für reale Aktionen erforderlich sind. Bemerkenswerterweise beobachten wir zwei Formen der Generalisierung: (1) Steuerungstransfer – RealPlay bildet Steuersignale effektiv von virtuellen auf reale Szenarien ab; und (2) Entitätentransfer – obwohl die Trainingslabels ausschließlich aus einem Autorennspiel stammen, generalisiert RealPlay auf die Steuerung verschiedener realer Entitäten, einschließlich Fahrrädern und Fußgängern, über Fahrzeuge hinaus. Die Projektseite ist hier zu finden: https://wenqsun.github.io/RealPlay/
Benutzerprofilierung ist entscheidend für Empfehlungssysteme, da sie Rohdaten aus Benutzerinteraktionen in prägnante und strukturierte Darstellungen umwandelt, die personalisierte Empfehlungen ermöglichen. Während traditionelle, auf Einbettungen basierende Profile an Interpretierbarkeit und Anpassungsfähigkeit mangeln, ermöglichen jüngste Fortschritte mit großen Sprachmodellen (LLMs) textbasierte Profile, die semantisch reicher und transparenter sind. Allerdings halten bestehende Methoden oft an festen Formaten fest, die ihre Fähigkeit einschränken, die gesamte Vielfalt des Benutzerverhaltens zu erfassen. In diesem Artikel stellen wir LettinGo vor, ein neuartiges Framework zur Erzeugung vielfältiger und adaptiver Benutzerprofile. Indem wir die Ausdruckskraft von LLMs nutzen und direktes Feedback aus nachgelagerten Empfehlungsaufgaben einbeziehen, vermeidet unser Ansatz die starren Einschränkungen, die durch überwachtes Feinabstimmen (SFT) auferlegt werden. Stattdessen verwenden wir Direct Preference Optimization (DPO), um den Profilgenerator mit aufgabenbezogener Leistung abzustimmen und sicherzustellen, dass die Profile anpassungsfähig und effektiv bleiben. LettinGo arbeitet in drei Phasen: (1) Erforschung vielfältiger Benutzerprofile über mehrere LLMs, (2) Bewertung der Profilqualität basierend auf ihrer Auswirkung in Empfehlungssystemen und (3) Abstimmung der Profilgenerierung durch paarweise Präferenzdaten, die aus der Aufgabenleistung abgeleitet werden. Experimentelle Ergebnisse zeigen, dass unser Framework die Empfehlungsgenauigkeit, Flexibilität und Kontextbewusstsein erheblich verbessert. Diese Arbeit stärkt die Profilgenerierung als eine Schlüsselinnovation für die nächste Generation von Empfehlungssystemen.
Multimodale große Sprachmodelle (MLLMs) haben begonnen, robuste Fähigkeiten zur logischen Schlussfolgerung bei allgemeinen Aufgaben zu demonstrieren, doch ihre Anwendung im medizinischen Bereich befindet sich noch in den Anfängen. Die Erstellung von Chain-of-Thought (CoT)-Trainingsdaten ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung von medizinischen MLLMs zu stärken. Bisherige Ansätze weisen jedoch einen Mangel an einem umfassenden Rahmenwerk auf, um effektive Denkpfade für kritische Diagnosen zu suchen und zu bewerten. Um diese Herausforderung zu bewältigen, schlagen wir Mentor-Intern Collaborative Search (MICS) vor, ein neuartiges Schema zur Suche nach Denkpfaden, um rigorose und effektive medizinische CoT-Daten zu generieren. MICS nutzt zunächst Mentor-Modelle, um die Schlussfolgerung Schritt für Schritt zu initialisieren, fordert dann jedes Intern-Modell auf, das Denken entlang dieser initiierten Pfade fortzusetzen, und wählt schließlich den optimalen Denkpfad basierend auf der Gesamtleistung der Schlussfolgerung mehrerer Intern-Modelle aus. Die Leistung der Schlussfolgerung wird durch einen MICS-Score bestimmt, der die Qualität der generierten Denkpfade bewertet. Schließlich erstellen wir MMRP, einen Multi-Task-Datensatz für medizinisches Denken mit abgestufter Schwierigkeit, und Chiron-o1, ein neues medizinisches MLLM, das durch eine Curriculum-Learning-Strategie entwickelt wurde und robuste Fähigkeiten zur visuellen Fragebeantwortung und generalisierbaren Schlussfolgerung aufweist. Umfangreiche Experimente zeigen, dass Chiron-o1, trainiert auf unserem mit MICS erstellten CoT-Datensatz, Spitzenleistungen in einer Reihe von Benchmarks für medizinische visuelle Fragebeantwortung und logische Schlussfolgerung erzielt. Der Code ist verfügbar unter GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
Wir präsentieren das erste Framework, das in der Lage ist, ein 4D spatio-temporales Gitter von Videobildern und 3D-Gauß-Partikeln für jeden Zeitschritt mithilfe einer Feedforward-Architektur zu berechnen. Unsere Architektur besteht aus zwei Hauptkomponenten: einem 4D-Videomodell und einem 4D-Rekonstruktionsmodell. Im ersten Teil analysieren wir aktuelle 4D-Video-Diffusionsarchitekturen, die räumliche und zeitliche Aufmerksamkeit entweder sequenziell oder parallel innerhalb eines Zwei-Stream-Designs durchführen. Wir heben die Grenzen bestehender Ansätze hervor und führen eine neuartige fusionierte Architektur ein, die räumliche und zeitliche Aufmerksamkeit innerhalb einer einzigen Schicht durchführt. Der Schlüssel zu unserer Methode ist ein sparsames Aufmerksamkeitsmuster, bei dem Token entweder andere im selben Bild, zum selben Zeitpunkt oder aus demselben Blickwinkel berücksichtigen. Im zweiten Teil erweitern wir bestehende 3D-Rekonstruktionsalgorithmen durch die Einführung eines Gauß-Kopfs, eines Kamera-Token-Ersetzungsalgorithmus sowie zusätzlicher dynamischer Schichten und Trainingsmethoden. Insgesamt etablieren wir einen neuen Stand der Technik für die 4D-Generierung, wodurch sowohl die visuelle Qualität als auch die Rekonstruktionsfähigkeit verbessert werden.
Die Bewertung generativer 3D-Modelle bleibt aufgrund der Fehlausrichtung zwischen automatisierten Metriken und der menschlichen Wahrnehmung von Qualität eine Herausforderung. Aktuelle Benchmarks stützen sich auf bildbasierte Metriken, die die 3D-Struktur ignorieren, oder geometrische Maße, die den wahrnehmungsbezogenen Reiz und den praktischen Nutzen in der realen Welt nicht erfassen. Um diese Lücke zu schließen, präsentieren wir 3D Arena, eine offene Plattform zur Bewertung von Bild-zu-3D-Generierungsmodellen durch die groß angelegte Sammlung menschlicher Präferenzen mittels paarweiser Vergleiche. Seit dem Start im Juni 2024 hat die Plattform 123.243 Stimmen von 8.096 Nutzern für 19 state-of-the-art Modelle gesammelt und damit die größte menschliche Präferenzbewertung für generative 3D-Modelle etabliert. Wir stellen das iso3d-Datenset mit 100 Bewertungsanfragen bereit und demonstrieren eine Qualitätskontrolle, die durch statistische Betrugserkennung eine Nutzerauthentizität von 99,75 % erreicht. Unser ELO-basiertes Rankingsystem bietet eine zuverlässige Modellbewertung, wodurch die Plattform zu einer etablierten Bewertungsressource geworden ist. Durch die Analyse dieser Präferenzdaten präsentieren wir Einblicke in menschliche Präferenzmuster. Unsere Ergebnisse zeigen Vorlieben für visuelle Darstellungsmerkmale, wobei Gaußsche Splat-Ausgaben einen ELO-Vorteil von 16,6 gegenüber Netzen erzielen und texturierte Modelle einen ELO-Vorteil von 144,1 gegenüber nicht texturierten Modellen erhalten. Wir geben Empfehlungen zur Verbesserung der Bewertungsmethoden, einschließlich der multikriteriellen Bewertung, der aufgabenorientierten Evaluation und des formatbewussten Vergleichs. Das Engagement der Community etabliert 3D Arena als Benchmark für das Feld und fördert gleichzeitig das Verständnis der menschzentrierten Bewertung in der generativen 3D-Modellierung.
Die Mixture of Experts (MoE)-Architektur hat sich als leistungsstarkes Paradigma für die Skalierung großer Sprachmodelle (LLMs) erwiesen, während die Inferenzeffizienz erhalten bleibt. Allerdings machen ihre enormen Speicheranforderungen sie für das Feinabstimmen oder den Einsatz in ressourcenbeschränkten Umgebungen unerschwinglich teuer. Um diese Herausforderung zu bewältigen, stellen wir SlimMoE vor, ein mehrstufiges Kompressionsframework, das große MoE-Modelle in viel kleinere, effiziente Varianten umwandelt, ohne die unverhältnismäßig hohen Kosten einer Neuanlernung zu verursachen. Unsere Methode reduziert systematisch die Parameteranzahl, indem Experten verschlankt und Wissen durch Zwischenstufen transferiert wird, wodurch die Leistungsverschlechterung, die bei Ein-Schritt-Beschneidungsansätzen häufig auftritt, effektiv gemildert wird. Mit diesem Framework komprimieren wir Phi 3.5-MoE (41,9B Gesamt-/6,6B aktivierte Parameter) zu Phi-mini-MoE (7,6B Gesamt-/2,4B aktivierte Parameter) und Phi-tiny-MoE (3,8B Gesamt-/1,1B aktivierte Parameter) unter Verwendung von nur 400B Tokens – weniger als 10 % der Trainingsdaten des ursprünglichen Modells. Diese komprimierten Modelle können auf einer einzigen GPU (A100 für Phi-mini-MoE, A6000 für Phi-tiny-MoE) feinabgestimmt werden, was sie besonders für akademische und ressourcenbeschränkte Umgebungen geeignet macht. Unsere Experimente zeigen, dass diese komprimierten Modelle andere Modelle ähnlicher Größe übertreffen und mit größeren Modellen wettbewerbsfähig bleiben. Beispielsweise erreicht Phi-mini-MoE eine ähnliche oder bessere Leistung wie Phi-3-mini mit nur 2/3 der aktivierten Parameter und erzielt vergleichbare MMLU-Werte wie Llama 3.1 8B, obwohl es eine deutlich geringere Latenz aufweist. Unsere Ergebnisse zeigen, dass strukturiertes Beschneiden in Kombination mit gestufter Destillation einen effektiven Weg zur Erstellung hochwertiger, kompakter MoE-Modelle bietet und den Weg für eine breitere Akzeptanz von MoE-Architekturen ebnet. Wir stellen unsere Modelle öffentlich unter https://huggingface.co/microsoft/Phi-mini-MoE-instruct und https://huggingface.co/microsoft/Phi-tiny-MoE-instruct zur Verfügung.
Dieses Papier stellt FinCoT vor, einen strukturierten Chain-of-Thought (CoT)-Prompting-Ansatz, der Erkenntnisse aus domänenspezifischem, expertengestütztem Finanzdenken integriert, um die Denkpfade großer Sprachmodelle zu steuern. Wir untersuchen, dass es in FinNLP drei Haupt-Prompting-Stile gibt: (1) Standard-Prompting – Zero-Shot-Prompting; (2) unstrukturiertes CoT – CoT-Prompting ohne explizite Denkstruktur, wie z. B. die Verwendung von Tags; und (3) strukturiertes CoT-Prompting – CoT-Prompting mit expliziten Anweisungen oder Beispielen, die strukturierte Denkschritte definieren. Bisher hat sich FinNLP hauptsächlich auf Prompt-Engineering mit entweder Standard- oder unstrukturiertem CoT-Prompting konzentriert. Strukturiertes CoT-Prompting wurde in früheren Arbeiten jedoch nur begrenzt berücksichtigt. Darüber hinaus basiert die Gestaltung von Denkstrukturen im strukturierten CoT-Prompting oft auf Heuristiken von Nicht-Domänenexperten. In dieser Studie untersuchen wir jeden Prompting-Ansatz in FinNLP. Wir evaluieren die drei Haupt-Prompting-Stile sowie FinCoT anhand von CFA-ähnlichen Fragen aus zehn Finanzdomänen. Wir beobachten, dass FinCoT die Leistung von 63,2 % auf 80,5 % und Qwen-2.5-7B-Instruct von 69,7 % auf 74,2 % steigert, während die generierten Tokens im Vergleich zum strukturierten CoT-Prompting um das Achtfache reduziert werden. Unsere Ergebnisse zeigen, dass domänenorientierte strukturierte Prompts nicht nur die Leistung verbessern und Inferenzkosten senken, sondern auch interpretierbarere und expertengerechtere Denkpfade liefern.
Die Bearbeitung der Beleuchtung in langen Videos mit komplexen Dynamiken hat einen erheblichen Wert für verschiedene nachgelagerte Aufgaben, einschließlich der Erstellung und Manipulation von visuellen Inhalten sowie der Skalierung von Daten für verkörperte KI durch Sim2Real- und Real2Real-Transfer. Dennoch sind bestehende Video-Relighting-Techniken überwiegend auf Porträtvideos beschränkt oder geraten in den Engpass von zeitlicher Konsistenz und Recheneffizienz. In diesem Artikel schlagen wir TC-Light vor, ein neuartiges Paradigma, das durch den vorgeschlagenen zweistufigen Post-Optimierungsmechanismus gekennzeichnet ist. Ausgehend von einem vorläufig relighteten Video durch ein erweitertes Video-Relighting-Modell, optimiert es im ersten Stadium das Erscheinungsbild-Einbettung, um die globale Beleuchtung auszurichten. Anschließend optimiert es im zweiten Stadium die vorgeschlagene kanonische Video-Darstellung, d.h. das Unique Video Tensor (UVT), um feinkörnige Texturen und Beleuchtung auszurichten. Um die Leistung umfassend zu bewerten, haben wir auch einen Benchmark für lange und hochdynamische Videos erstellt. Umfangreiche Experimente zeigen, dass unsere Methode physikalisch plausible Relighting-Ergebnisse mit überlegener zeitlicher Kohärenz und geringen Rechenkosten ermöglicht. Der Code und Video-Demos sind verfügbar unter https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 hat die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung erfolgreich durch sein regelbasiertes Belohnungssystem verbessert. Obwohl es sich um ein „perfektes“ Belohnungssystem handelt, das Belohnungsmanipulation effektiv verhindert, sind solche Belohnungsfunktionen oft diskret. Unsere experimentellen Beobachtungen deuten darauf hin, dass diskrete Belohnungen zu Gradientenanomalien, instabiler Optimierung und langsamer Konvergenz führen können. Um dieses Problem zu lösen, schlagen wir ReDit (Reward Dithering) vor, eine Methode, die das diskrete Belohnungssignal durch das Hinzufügen von einfachem Zufallsrauschen dithert. Mit diesem gestörten Belohnungssignal werden explorative Gradienten kontinuierlich während des Lernprozesses bereitgestellt, was glattere Gradientenaktualisierungen ermöglicht und die Konvergenz beschleunigt. Das eingeführte Rauschen führt auch Stochastizität in flache Belohnungsregionen ein, was das Modell dazu anregt, neue Strategien zu erkunden und lokale Optima zu verlassen. Experimente über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit und Effizienz von ReDit. Im Durchschnitt erreicht ReDit eine Leistung, die mit der von Vanilla GRPO vergleichbar ist, jedoch mit nur etwa 10 % der Trainingsschritte, und zeigt darüber hinaus noch eine 4 %ige Leistungsverbesserung gegenüber Vanilla GRPO, wenn es für eine ähnliche Dauer trainiert wird. Visualisierungen bestätigen eine signifikante Minderung von Gradientenproblemen mit ReDit. Darüber hinaus werden theoretische Analysen bereitgestellt, um diese Vorteile weiter zu validieren.
Die jüngste Verlagerung von Generative AI (GenAI)-Anwendungen von reinen Cloud-Umgebungen auf Endgeräte der Nutzer führt zu neuen Herausforderungen in den Bereichen Ressourcenmanagement, Systemeffizienz und Benutzererfahrung. Dieses Papier stellt ConsumerBench vor, ein umfassendes Benchmarking-Framework, das entwickelt wurde, um die Systemeffizienz und Antwortzeiten von GenAI-Modellen auf Endgeräten zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die einen exklusiven Modellzugriff auf dedizierten GPUs voraussetzen, simuliert ConsumerBench realistische Szenarien mit mehreren Anwendungen, die gleichzeitig auf eingeschränkter Hardware ausgeführt werden. Darüber hinaus unterstützt ConsumerBench anpassbare Workflows, die komplexe Aufgaben simulieren, die eine Koordination zwischen mehreren Anwendungen erfordern. ConsumerBench erfasst sowohl anwendungsbezogene Metriken, wie Latenz und die Einhaltung von Service Level Objectives (SLOs), als auch systembezogene Metriken wie CPU/GPU-Auslastung und Speicherbandbreite. Durch umfangreiche Experimente deckt ConsumerBench Ineffizienzen bei der Ressourcenfreigabe, unfaire Planung bei gieriger Zuweisung und Leistungsprobleme statischer Modellserver-Konfigurationen auf. Das Papier bietet auch praktische Einblicke für Modellentwickler und Systemdesigner und hebt die Vorteile von maßgeschneiderten Kerneln für Consumer-GPU-Architekturen sowie den Wert der Implementierung von SLO-bewussten Planungsstrategien hervor.
Belohnungsmodelle (RMs) sind grundlegend für die Ausrichtung von Large Language Models (LLMs) durch menschliches Feedback, leiden jedoch häufig unter Reward Hacking. Sie neigen dazu, sich an oberflächliche oder trügerische Attribute wie Antwortlänge oder Formatierung zu klammern und verwechseln diese aus Korrelationen in den Trainingsdaten gelernten Hinweise mit den tatsächlichen kausalen Treibern von Qualität (z. B. Faktentreue, Relevanz). Dies geschieht, weil standardmäßige Trainingsziele Schwierigkeiten haben, diese Faktoren zu entwirren, was zu brüchigen RMs und fehlausgerichteten Politiken führt. Wir stellen Crome (Causally Robust Reward Modeling) vor, ein neuartiges Framework, das auf einem expliziten Kausalmodell basiert und darauf abzielt, Reward Hacking zu mildern. Crome verwendet während des Trainings die folgenden synthetischen, gezielten Erweiterungen: (1) Kausale Erweiterungen, bei denen es sich um Paare handelt, die sich entlang spezifischer kausaler Attribute unterscheiden, um die Sensitivität entlang jedes kausalen Attributs individuell zu erzwingen, und (2) Neutrale Erweiterungen, bei denen es sich um Paare mit Gleichheitslabel handelt, die sich hauptsächlich in trügerischen Attributen unterscheiden, um Invarianz entlang trügerischer Attribute zu erzwingen. Bemerkenswerterweise werden unsere Erweiterungen ohne Kenntnis trügerischer Faktoren erzeugt, indem nur Eingriffe in Antworten entlang kausaler Kriterien vorgenommen werden, die durch Abfragen eines Orakel-LLMs identifiziert werden. Empirisch übertrifft Crome Standard-Baselines auf RewardBench deutlich, verbessert die durchschnittliche Genauigkeit um bis zu 5,4 % und erzielt Gewinne von bis zu 13,2 % und 7,2 % in bestimmten Kategorien. Die Robustheit von Crome wird weiter durch die konsistenten Gewinne in einem Best-of-N-Inferenz-Setting bei steigendem N über verschiedene Benchmarks hinweg belegt, darunter das beliebte RewardBench (das Chat-, Chat-Hard-, Sicherheits- und Denkaufgaben abdeckt), der sicherheitsfokussierte WildGuardTest und der speziell auf Denkaufgaben ausgerichtete GSM8k.
Diese Arbeit untersucht, ob die Aktivierung latenter Unterräume in Sprachmodellen (LLMs) die Generierung von wissenschaftlichem Code in eine bestimmte Programmiersprache lenken kann. Fünf kausale LLMs wurden zunächst anhand von wissenschaftlichen Codierungsaufforderungen evaluiert, um ihre Grundlinienverzerrung zwischen vier Programmiersprachen zu quantifizieren. Eine statische Neuron-Attributionsmethode, bei der das höchstaktivierte MLP-Gewicht für ein C++- oder CPP-Token gestört wurde, erwies sich als spröde und zeigte eine begrenzte Generalisierung über verschiedene Aufforderungsstile und Modellgrößen hinweg. Um diese Einschränkungen zu überwinden, wurde ein gradientenverfeinertes adaptives Aktivierungslenkungsframework (G-ACT) entwickelt: Unterschiede in der Aktivierung pro Aufforderung werden in eine kleine Anzahl von Lenkrichtungen gruppiert, und leichtgewichtige pro-Schicht-Sonden werden online trainiert und verfeinert, um den geeigneten Lenkvektor auszuwählen. In LLaMA-3.2 3B lenkt dieser Ansatz die Generierung zuverlässig in Richtung der CPP-Sprache, indem die durchschnittliche Klassifikationsgenauigkeit der Sonden um 15 % erhöht wird und die frühen Schichten (0-6) die Klassifikationsgenauigkeit der Sonden um 61,5 % im Vergleich zum standardmäßigen ACT-Framework verbessern. Bei LLaMA-3.3 70B, wo die Signale der Aufmerksamkeitsköpfe diffuser werden, verbessern gezielte Injektionen in Schlüsselschichten dennoch die Sprachauswahl. Obwohl die pro-Schicht-Sondierung einen moderaten Inferenz-Overhead einführt, bleibt sie praktikabel, indem nur eine Teilmenge der Schichten gelenkt wird, und ermöglicht reproduzierbares Modellverhalten. Diese Ergebnisse demonstrieren einen skalierbaren, interpretierbaren und effizienten Mechanismus für die konzeptuelle Steuerung praktischer agentenbasierter Systeme.
Die Erzeugung von Multi-View-Bildern aus menschlichen Anweisungen ist entscheidend für die 3D-Inhaltserstellung. Die Hauptherausforderungen bestehen darin, die Konsistenz über mehrere Ansichten hinweg aufrechtzuerhalten und Formen sowie Texturen effektiv unter verschiedenen Bedingungen zu synthetisieren. In diesem Artikel schlagen wir die Multi-View Auto-Regressive (MV-AR)-Methode vor, die ein autoregressives Modell nutzt, um schrittweise konsistente Multi-View-Bilder aus beliebigen Eingabeaufforderungen zu generieren. Zunächst verbessert die Next-Token-Prediction-Fähigkeit des AR-Modells dessen Effektivität bei der schrittweisen Multi-View-Synthese erheblich. Bei der Generierung weit voneinander entfernt liegender Ansichten kann MV-AR alle vorhergehenden Ansichten nutzen, um effektive Referenzinformationen zu extrahieren. Anschließend schlagen wir ein einheitliches Modell vor, das verschiedene Eingabeaufforderungen durch Architekturdesign und Trainingsstrategien berücksichtigt. Um mehrere Bedingungen zu adressieren, führen wir Condition-Injection-Module für Text, Kamerapose, Bild und Form ein. Um multimodale Bedingungen gleichzeitig zu verwalten, wird eine progressive Trainingsstrategie eingesetzt. Diese Strategie verwendet zunächst das Text-to-Multi-View (t2mv)-Modell als Baseline, um die Entwicklung eines umfassenden X-to-Multi-View (X2mv)-Modells durch das zufällige Weglassen und Kombinieren von Bedingungen zu fördern. Schließlich schlagen wir die „Shuffle View“-Datenaugmentationstechnik vor, um das Overfitting-Problem aufgrund begrenzter hochwertiger Daten zu mildern und so die Trainingsdaten erheblich zu erweitern. Experimente demonstrieren die Leistungsfähigkeit und Vielseitigkeit unseres MV-AR, das konsistente Multi-View-Bilder über eine Reihe von Bedingungen hinweg erzeugt und mit führenden diffusionsbasierten Multi-View-Bildgenerierungsmodellen gleichauf liegt. Code und Modelle werden unter https://github.com/MILab-PKU/MVAR veröffentlicht.
Sparse Autoencoder (SAEs) haben sich als vielversprechende Lösung zur Zerlegung von Repräsentationen großer Sprachmodelle in interpretierbare Merkmale erwiesen. Allerdings haben Paulo und Belrose (2025) Instabilitäten bei verschiedenen Initialisierungs-Seeds aufgezeigt, und Heap et al. (2025) haben darauf hingewiesen, dass SAEs möglicherweise keine modellinternen Merkmale erfassen. Diese Probleme rühren wahrscheinlich daher, dass SAEs auf externen Datensätzen trainiert werden – entweder aus dem Web gesammelt oder von einem anderen Modell generiert –, die out-of-distribution (OOD)-Daten enthalten können, die über die Generalisierungsfähigkeiten des Modells hinausgehen. Dies kann zu halluzinierten SAE-Merkmalen führen, die wir als „Fake Features“ bezeichnen und die die internen Aktivierungen des Modells falsch darstellen. Um diese Probleme zu lösen, schlagen wir FaithfulSAE vor, eine Methode, die SAEs auf dem synthetischen Datensatz des Modells selbst trainiert. Mit FaithfulSAEs zeigen wir, dass das Training von SAEs auf weniger OOD-Instruktionsdatensätzen zu einer höheren Stabilität der SAEs über verschiedene Seeds hinweg führt. Bemerkenswerterweise übertreffen FaithfulSAEs SAEs, die auf webbasierten Datensätzen trainiert wurden, in der SAE-Probing-Aufgabe und weisen in 5 von 7 Modellen ein geringeres Fake-Feature-Verhältnis auf. Insgesamt eliminiert unser Ansatz die Abhängigkeit von externen Datensätzen und fördert die Interpretierbarkeit, indem modellinterne Merkmale besser erfasst werden, während gleichzeitig die oft vernachlässigte Bedeutung von SAE-Trainingsdatensätzen hervorgehoben wird.
Große Sprachmodelle (LLMs) werden zunehmend in Anwendungen eingesetzt, die lange Kontextlängen erfordern, doch der Key-Value (KV)-Cache wird oft zu einem Speicher-Engpass auf GPUs, wenn der Kontext wächst. Um dies zu lösen, schlagen wir Commutative Vector Quantization (CommVQ) vor, um den Speicherverbrauch für die Inferenz von LLMs mit langem Kontext erheblich zu reduzieren. Zunächst führen wir additive Quantisierung mit einem leichtgewichtigen Encoder und Codebook ein, um den KV-Cache zu komprimieren, der durch einfache Matrixmultiplikation dekodiert werden kann. Um die Rechenkosten während der Dekodierung weiter zu reduzieren, entwerfen wir das Codebook so, dass es mit Rotary Position Embedding (RoPE) kommutativ ist, und trainieren es mit einem Expectation-Maximization (EM)-Algorithmus. Dies ermöglicht eine effiziente Integration der Dekodierung in den Self-Attention-Mechanismus. Unser Ansatz erreicht hohe Genauigkeit durch additive Quantisierung und geringen Overhead durch das RoPE-kommutative Codebook. Experimente auf Benchmarks für lange Kontexte und GSM8K zeigen, dass unsere Methode die Größe des FP16 KV-Caches um 87,5 % bei 2-Bit-Quantisierung reduziert und dabei state-of-the-art KV-Cache-Quantisierungsmethoden übertrifft. Bemerkenswerterweise ermöglicht sie eine 1-Bit-KV-Cache-Quantisierung mit minimalem Genauigkeitsverlust, sodass ein LLaMA-3.1 8B-Modell mit einer Kontextlänge von 128K auf einer einzelnen RTX 4090 GPU ausgeführt werden kann. Der Quellcode ist verfügbar unter: https://github.com/UMass-Embodied-AGI/CommVQ.
Trotz ihrer beeindruckenden Fähigkeiten erzeugen ausgerichtete große Sprachmodelle (LLMs) oft Ausgaben, denen es an Diversität mangelt. Was treibt diese Stabilität in der Generierung an? Wir untersuchen dieses Phänomen durch die Linse der Wahrscheinlichkeitskonzentration in der Ausgabeverteilung des Modells. Um diese Konzentration zu quantifizieren, führen wir den Verzweigungsfaktor (Branching Factor, BF) ein – ein token-invariantes Maß für die effektive Anzahl plausibler nächster Schritte während der Generierung. Unsere empirische Analyse zeigt zwei zentrale Erkenntnisse: (1) Der BF nimmt oft im Verlauf der Generierung ab, was darauf hindeutet, dass LLMs vorhersehbarer werden, während sie generieren. (2) Das Alignment-Tuning schärft die Ausgabeverteilung des Modells von Beginn an erheblich und reduziert den BF um fast eine Größenordnung (z. B. von 12 auf 1,2) im Vergleich zu Basismodellen. Diese deutliche Reduktion hilft zu erklären, warum ausgerichtete Modelle oft weniger empfindlich auf Dekodierungsstrategien reagieren. Aufbauend auf dieser Erkenntnis stellen wir fest, dass diese Stabilität überraschende Auswirkungen auf komplexes Denken hat. Ausgerichtete Chain-of-Thought (CoT)-Modelle (z. B. DeepSeek-distillierte Modelle) nutzen diesen Effekt; indem sie längere Denkketten generieren, verschieben sie die Generierung in spätere, deterministischere (niedrigerer BF) Stadien, was zu stabileren Ausgaben führt. Wir stellen die Hypothese auf, dass Alignment-Tuning das Verhalten eines Modells nicht grundlegend verändert, sondern es stattdessen auf stilistische Tokens (z. B. „Sicher“) lenkt, die bereits im Basismodell vorhandene Niedrig-Entropie-Pfade freischalten. Diese Sichtweise wird durch Nudging-Experimente gestützt, die zeigen, dass die Eingabe solcher Tokens in Basismodelle den BF ähnlich reduzieren kann. Zusammenfassend etablieren unsere Ergebnisse den BF als ein leistungsstarkes Diagnoseinstrument zum Verständnis und zur Steuerung von LLM-Ausgaben – er klärt, wie Alignment die Variabilität reduziert, wie CoT stabile Generierungen fördert und wie Basismodelle von Diversität weggelenkt werden können.
Die Erkennung von KI-generiertem Code, Deepfakes und anderem synthetischen Inhalt stellt eine aufstrebende Forschungsherausforderung dar. Da Code, der von Large Language Models (LLMs) generiert wird, immer häufiger wird, ist es zunehmend wichtig, das spezifische Modell hinter jeder Probe zu identifizieren. Dieses Papier präsentiert die erste systematische Studie zur Urheberschaftsattribution von LLMs für C-Programme. Wir haben CodeT5-Authorship veröffentlicht, ein neuartiges Modell, das nur die Encoder-Schichten der ursprünglichen CodeT5-Encoder-Decoder-Architektur verwendet und den Decoder verwirft, um sich auf die Klassifikation zu konzentrieren. Der Encoder-Ausgang unseres Modells (erster Token) wird durch einen zweischichtigen Klassifikationskopf mit GELU-Aktivierung und Dropout geleitet, wodurch eine Wahrscheinlichkeitsverteilung über mögliche Autoren erzeugt wird. Um unseren Ansatz zu bewerten, führen wir LLM-AuthorBench ein, einen Benchmark mit 32.000 kompilierbaren C-Programmen, die von acht state-of-the-art LLMs für verschiedene Aufgaben generiert wurden. Wir vergleichen unser Modell mit sieben traditionellen ML-Klassifikatoren und acht feinabgestimmten Transformer-Modellen, darunter BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer und LoRA-feinabgestimmtes Qwen2-1.5B. In der binären Klassifikation erreicht unser Modell eine Genauigkeit von 97,56 % bei der Unterscheidung von C-Programmen, die von eng verwandten Modellen wie GPT-4.1 und GPT-4o generiert wurden, und eine Genauigkeit von 95,40 % für die Multi-Klassen-Attribution unter fünf führenden LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 und DeepSeek-V3). Um die offene Wissenschaft zu unterstützen, veröffentlichen wir die CodeT5-Authorship-Architektur, den LLM-AuthorBench-Benchmark und alle relevanten Google Colab-Skripte auf GitHub: https://github.com/LLMauthorbench/.
Aktuelle Multimodale Große Sprachmodelle (MLLMs) übertreffen sich bei Benchmark-Aufgaben im Bereich Vision-Sprache, doch es ist wenig darüber bekannt, wie die visuelle Qualität der Eingaben ihre Antworten beeinflusst. Führt eine höhere wahrgenommene Bildqualität bereits zu einem besseren Verständnis der MLLMs? Wir führen die erste systematische Studie durch, die führende MLLMs und eine Reihe von Vision-Sprache-Benchmarks umfasst, wobei wir kontrollierte Verschlechterungen und stilistische Veränderungen auf jedes Bild anwenden. Überraschenderweise entdecken wir ein visuelles Qualitäts-Paradoxon: Die Leistung des Modells, der Aufgabe und sogar einzelner Instanzen kann sich verbessern, wenn Bilder von der menschlich wahrgenommenen Treue abweichen. Standardmäßige Restaurationspipelines können diese idiosynkratischen Präferenzen nicht in Einklang bringen. Um diese Lücke zu schließen, führen wir Visual-Quality Test-Time Tuning (VQ-TTT) ein – ein leichtgewichtiges Anpassungsmodul, das: (1) einen lernfähigen, niedrigrangigen Kernel vor dem eingefrorenen Vision-Encoder einfügt, um den Frequenzgehalt zu modulieren; und (2) nur flache Vision-Encoder-Schichten über LoRA feinabstimmt. VQ-TTT passt jedes Eingabebild dynamisch in einem einzigen Vorwärtsdurchlauf an und richtet es an den aufgabenspezifischen Modellpräferenzen aus. Über alle evaluierten MLLMs und Datensätze hinweg steigert VQ-TTT die durchschnittliche Genauigkeit signifikant, ohne externe Modelle, zwischengespeicherte Merkmale oder zusätzliche Trainingsdaten. Diese Ergebnisse definieren „bessere“ visuelle Eingaben für MLLMs neu und unterstreichen die Notwendigkeit adaptiver, anstatt universell „sauberer“ Bilddaten in der neuen Ära, in der KI der Hauptdatennutzer ist.
Können wir 4D-Pretraining skalieren, um allgemeine Raum-Zeit-Darstellungen zu erlernen, die ein Objekt aus wenigen Ansichten zu bestimmten Zeitpunkten in jede Ansicht zu jedem Zeitpunkt rekonstruieren? Wir liefern eine bejahende Antwort mit 4D-LRM, dem ersten groß angelegten 4D-Rekonstruktionsmodell, das Eingaben aus unbegrenzten Ansichten und Zeitstempeln verarbeitet und beliebige neue Ansicht-Zeit-Kombinationen rendert. Im Gegensatz zu früheren 4D-Ansätzen, wie optimierungsbasierten, geometriebasierten oder generativen Methoden, die mit Effizienz, Generalisierung oder Treue zu kämpfen haben, lernt 4D-LRM eine einheitliche Raum-Zeit-Darstellung und sagt direkt 4D-Gauß-Primitive pro Pixel aus gerichteten Bild-Token über die Zeit voraus, was ein schnelles, hochwertiges Rendering mit im Prinzip unendlicher Bildrate ermöglicht. Unsere Ergebnisse zeigen, dass die Skalierung von raumzeitlichem Pretraining eine präzise und effiziente 4D-Rekonstruktion ermöglicht. Wir demonstrieren, dass 4D-LRM auf neue Objekte generalisiert, über die Zeit interpoliert und diverse Kameraeinstellungen handhabt. Es rekonstruiert 24-Bildsequenzen in einem Vorwärtsdurchlauf in weniger als 1,5 Sekunden auf einer einzelnen A100-GPU.
Medizinisches visuelles Frage-Antworten zielt darauf ab, die klinische Entscheidungsfindung zu unterstützen, indem es Modellen ermöglicht, natürliche Sprachfragen auf der Grundlage medizinischer Bilder zu beantworten. Obwohl jüngste Fortschritte im multimodalen Lernen die Leistung erheblich verbessert haben, leiden aktuelle Methoden immer noch unter begrenzter Antwortzuverlässigkeit und schlechter Interpretierbarkeit, was die Fähigkeit von Klinikern und Patienten beeinträchtigt, modellgenerierte Antworten zu verstehen und ihnen zu vertrauen. Um dies zu adressieren, schlägt diese Arbeit zunächst einen „Thinking with Visual Grounding“ (ThinkVG)-Datensatz vor, bei dem die Antwortgenerierung in Zwischenschritte der Argumentation zerlegt wird, die relevante visuelle Regionen des medizinischen Bildes explizit verankern und dadurch eine feinkörnige Erklärbarkeit bieten. Darüber hinaus führen wir einen neuartigen verifizierbaren Belohnungsmechanismus für bestärkendes Lernen ein, um das Post-Training zu steuern und die Übereinstimmung zwischen dem Argumentationsprozess des Modells und seiner endgültigen Antwort zu verbessern. Bemerkenswerterweise erreicht unsere Methode vergleichbare Leistungen mit nur einem Achtel der Trainingsdaten, was die Effizienz und Wirksamkeit des Vorschlags demonstriert. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Jüngste Fortschritte in Musik-Foundation-Modellen haben das Lernen von Audio-Repräsentationen verbessert, doch ihre Wirksamkeit über verschiedene musikalische Traditionen hinweg bleibt begrenzt. Wir stellen CultureMERT-95M vor, ein multikulturell angepasstes Foundation-Modell, das entwickelt wurde, um das Lernen und Verstehen von musikalischen Repräsentationen über kulturelle Grenzen hinweg zu verbessern. Um dies zu erreichen, schlagen wir eine zweistufige kontinuierliche Vorab-Trainingsstrategie vor, die die Neuerwärmung und das erneute Abklingen der Lernrate integriert, wodurch eine stabile Anpassung auch bei begrenzten Rechenressourcen ermöglicht wird. Das Training auf einem 650-stündigen multikulturellen Datensatz, der griechische, türkische und indische Musiktraditionen umfasst, führt zu einer durchschnittlichen Verbesserung von 4,9 % in ROC-AUC und AP über verschiedene nicht-westliche Musik-Auto-Tagging-Aufgaben hinweg und übertrifft damit den bisherigen Stand der Technik, wobei gleichzeitig das Vergessen auf westlich zentrierten Benchmarks minimal bleibt. Wir untersuchen weiterhin Task-Arithmetik, einen alternativen Ansatz zur multikulturellen Anpassung, der einzelkulturell angepasste Modelle im Gewichtsraum zusammenführt. Task-Arithmetik schneidet bei nicht-westlichen Auto-Tagging-Aufgaben ebenso gut ab wie unser multikulturell trainiertes Modell und zeigt keine Regression auf westlichen Datensätzen. Die interkulturelle Auswertung zeigt, dass einzelkulturelle Modelle mit unterschiedlicher Effektivität über musikalische Traditionen hinweg übertragen werden, während das multikulturell angepasste Modell die beste Gesamtleistung erzielt. Um die Forschung zum Lernen von Repräsentationen weltweiter Musik zu unterstützen, veröffentlichen wir CultureMERT-95M und CultureMERT-TA-95M öffentlich und fördern so die Entwicklung von kulturell bewussteren Musik-Foundation-Modellen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte erzielt, doch ihr Einsatz hat kritische Schwachstellen offengelegt, insbesondere gegenüber Jailbreak-Angriffen, die Sicherheitsmechanismen umgehen. Guardrails – externe Abwehrmechanismen, die die Interaktion mit LLMs überwachen und steuern – haben sich als vielversprechende Lösung herausgestellt. Allerdings ist die derzeitige Landschaft der LLM-Guardrails fragmentiert und es fehlt an einer einheitlichen Taxonomie und einem umfassenden Bewertungsrahmen. In diesem Systematisierungswissen (SoK)-Papier präsentieren wir die erste ganzheitliche Analyse von Jailbreak-Guardrails für LLMs. Wir schlagen eine neuartige, mehrdimensionale Taxonomie vor, die Guardrails entlang sechs Schlüsseldimensionen kategorisiert, und führen einen Sicherheit-Effizienz-Nutzen-Bewertungsrahmen ein, um ihre praktische Wirksamkeit zu bewerten. Durch umfangreiche Analysen und Experimente identifizieren wir die Stärken und Grenzen bestehender Guardrail-Ansätze, untersuchen ihre Universalität über verschiedene Angriffstypen hinweg und geben Einblicke in die Optimierung von Verteidigungskombinationen. Unsere Arbeit bietet eine strukturierte Grundlage für zukünftige Forschung und Entwicklung, mit dem Ziel, den prinzipiengeleiteten Fortschritt und die Bereitstellung robuster LLM-Guardrails zu fördern. Der Code ist verfügbar unter https://github.com/xunguangwang/SoK4JailbreakGuardrails.
Die Visualisierung von Geschichten hat sich zu einer beliebten Aufgabe entwickelt, bei der visuelle Szenen erzeugt werden, um eine Erzählung über mehrere Panels hinweg darzustellen. Eine zentrale Herausforderung in diesem Kontext besteht darin, die visuelle Konsistenz zu bewahren, insbesondere in Bezug darauf, wie Charaktere und Objekte im Verlauf der Geschichte bestehen bleiben und sich entwickeln. Trotz jüngster Fortschritte bei Diffusionsmodellen scheitern aktuelle Ansätze oft daran, Schlüsselattribute von Charakteren beizubehalten, was zu inkohärenten Erzählungen führt. In dieser Arbeit schlagen wir ein kollaboratives Multi-Agenten-Framework vor, das Inkonsistenzen in der Visualisierung von Geschichten über mehrere Panels hinweg autonom identifiziert, korrigiert und verfeinert. Die Agenten arbeiten in einem iterativen Kreislauf, der fein abgestimmte, panel-spezifische Aktualisierungen ermöglicht, ohne gesamte Sequenzen neu generieren zu müssen. Unser Framework ist modellunabhängig und lässt sich flexibel in eine Vielzahl von Diffusionsmodellen integrieren, einschließlich rektifizierter Flow-Transformer wie Flux und latenter Diffusionsmodelle wie Stable Diffusion. Quantitative und qualitative Experimente zeigen, dass unsere Methode bisherige Ansätze in Bezug auf die Konsistenz über mehrere Panels hinweg übertrifft.
Aktuelle multimodale große Sprachmodelle (MLLMs) haben oft Schwierigkeiten, personalisierte Bildbeschreibungen zu generieren, selbst wenn sie mit hochwertigen Beschreibungen trainiert wurden. In dieser Arbeit beobachten wir, dass solche Einschränkungen in bestehenden Post-Training-Methoden zur Personalisierung von MLLMs fortbestehen. Insbesondere scheitern diese Modelle häufig daran, treffende Beschreibungen in realen Szenarien zu erzeugen, wie beispielsweise bei der Beschreibung von Bildern mit mehreren Konzepten, obwohl sie durch überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) mit groß angelegten Beschreibungsdaten nachtrainiert wurden. Die Beschaffung von groß angelegten, hochwertigen Beschreibungen für derart komplexe Szenarien ist jedoch sowohl kostspielig als auch schwierig. Um den datenzentrierten Charakter von SFT zu adressieren, schlagen wir ein auf Verstärkungslernen (Reinforcement Learning, RL) basierendes Post-Training-Framework vor. Nach unserem besten Wissen ist dies der erste RL-basierte Ansatz zur Nachschulung von MLLMs für personalisierte Bildbeschreibungen. Unsere Methode verbessert sowohl die visuelle Erkennungsfähigkeit als auch die personalisierte Generierungsfähigkeit von MLLMs erheblich und übertrifft durchweg bestehende SFT-basierte Baselines, insbesondere in der anspruchsvollen Aufgabe der Beschreibung von Bildern mit mehreren Konzepten.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zu bemerkenswerten Fortschritten in der natürlichen Sprachverarbeitung geführt, doch ihre Rechen- und Speicheranforderungen bleiben eine erhebliche Herausforderung, insbesondere für Inferenzen mit langen Kontexten. Wir stellen TPTT (Transforming Pretrained Transformer into Titans) vor, ein neuartiges Framework zur Verbesserung vortrainierter Transformer-Modelle durch effiziente linearisierte Aufmerksamkeitsmechanismen und fortschrittliches Speichermanagement. TPTT nutzt Techniken wie Memory as Gate (MaG) und gemischte linearisierte Aufmerksamkeit (LiZA). Es ist vollständig kompatibel mit der Hugging Face Transformers-Bibliothek und ermöglicht die nahtlose Anpassung jedes kausalen LLM durch parameter-effizientes Feinabstimmen (LoRA) ohne vollständiges Neulernen. Wir zeigen die Wirksamkeit von TPTT auf dem MMLU-Benchmark mit Modellen von etwa 1 Milliarde Parametern und beobachten erhebliche Verbesserungen sowohl in der Effizienz als auch in der Genauigkeit. Beispielsweise erreicht Titans-Llama-3.2-1B eine 20%ige Steigerung in Exact Match (EM) gegenüber seinem Baseline-Modell. Statistische Analysen und Vergleiche mit aktuellen State-of-the-Art-Methoden bestätigen die praktische Skalierbarkeit und Robustheit von TPTT. Der Code ist verfügbar unter https://github.com/fabienfrfr/tptt. Das Python-Paket finden Sie unter https://pypi.org/project/tptt/.
Neonatale Sterblichkeit ist nach wie vor eine besorgniserregende Realität für unterentwickelte und sogar einige entwickelte Länder. Weltweite Daten von Macro Trades zeigen, dass 26,693 von 1.000 Neugeborenen sterben. Um diese Zahl zu reduzieren, ist die frühzeitige Vorhersage gefährdeter Babys entscheidend. Eine solche Vorhersage ermöglicht es, ausreichend Fürsorge für das Kind und die Mutter zu gewährleisten, um frühe Kindstode zu vermeiden. In diesem Kontext wurde maschinelles Lernen eingesetzt, um festzustellen, ob ein Neugeborenes gefährdet ist. Zur Schulung des Vorhersagemodells wurden historische Daten von 1,4 Millionen Neugeborenen verwendet. Maschinelle Lern- und Deep-Learning-Techniken wie logistische Regression, K-Nächste-Nachbarn, Random-Forest-Klassifikator, Extreme Gradient Boosting (XGBoost), Convolutional Neural Network und Long Short-Term Memory (LSTM) wurden mit dem Datensatz implementiert, um das genaueste Modell zur Vorhersage der neonatalen Mortalität zu identifizieren. Unter den maschinellen Lernalgorithmen erzielten XGBoost und der Random-Forest-Klassifikator mit 94 % die beste Genauigkeit, während unter den Deep-Learning-Modellen LSTM mit 99 % die höchste Genauigkeit lieferte. Daher scheint die Verwendung von LSTM der am besten geeignete Ansatz zu sein, um vorherzusagen, ob Vorsichtsmaßnahmen für ein Kind erforderlich sind.
Trotz jüngster Fortschritte bei der Generierung von Hardware-RTL-Code mit LLMs leiden bestehende Lösungen noch immer unter einer erheblichen Lücke zwischen praktischen Anwendungsszenarien und den Anforderungen der realen RTL-Code-Entwicklung. Bisherige Ansätze konzentrieren sich entweder auf übermäßig vereinfachte Hardwarebeschreibungen oder sind auf umfangreiche menschliche Anleitung angewiesen, um komplexe Spezifikationen zu verarbeiten, was ihre Skalierbarkeit und Automatisierungspotenziale einschränkt. In diesem Papier schließen wir diese Lücke, indem wir ein LLM-Agentensystem, genannt Spec2RTL-Agent, vorschlagen, das darauf ausgelegt ist, komplexe Spezifikationsdokumente direkt zu verarbeiten und entsprechende RTL-Code-Implementierungen zu generieren, wodurch die LLM-basierte RTL-Code-Generierung in Richtung realistischerer Anwendungsszenarien vorangetrieben wird. Um dieses Ziel zu erreichen, führt Spec2RTL-Agent ein neuartiges Multi-Agenten-Kollaborationsframework ein, das drei Schlüsselfaktoren integriert: (1) ein Modul zur logischen Analyse und Verständnisbildung, das Spezifikationen in strukturierte, schrittweise Implementierungspläne übersetzt; (2) ein progressives Codierungs- und Prompt-Optimierungsmodul, das den Code iterativ über mehrere Repräsentationen hinweg verfeinert, um die Korrektheit und Synthetisierbarkeit für die RTL-Konvertierung zu verbessern; und (3) ein adaptives Reflexionsmodul, das die Fehlerquellen während der Generierung identifiziert und nachverfolgt, um einen robusteren Code-Generierungsprozess zu gewährleisten. Anstatt RTL direkt aus natürlicher Sprache zu generieren, erzeugt unser System strategisch synthetisierbaren C++-Code, der dann für HLS optimiert wird. Diese agentengesteuerte Verfeinerung gewährleistet eine größere Korrektheit und Kompatibilität im Vergleich zu naiven direkten RTL-Generierungsansätzen. Wir evaluieren Spec2RTL-Agent anhand von drei Spezifikationsdokumenten und zeigen, dass es präzisen RTL-Code mit bis zu 75 % weniger menschlichen Eingriffen als bestehende Methoden generiert. Dies unterstreicht seine Rolle als das erste vollautomatisierte Multi-Agenten-System für die RTL-Generierung aus unstrukturierten Spezifikationen, das die Abhängigkeit von menschlichem Aufwand im Hardware-Design reduziert.