papers.description
Um die Kontextgrenzen großer Sprachmodelle (LLMs) zu überwinden, die die Genauigkeit und Effizienz des logischen Schließens einschränken, schlagen wir das Thread Inference Model (TIM) vor, eine Familie von LLMs, die für rekursives und dekompositionelles Problemlösen trainiert sind, sowie TIMRUN, eine Inferenzlaufzeitumgebung, die strukturiertes Schließen über lange Horizonte jenseits von Kontextgrenzen ermöglicht. Zusammen unterstützt TIM, das auf TIMRUN läuft, praktisch unbegrenzten Arbeitsspeicher und mehrstufige Werkzeugaufrufe innerhalb einer einzigen Sprachmodell-Inferenz, wodurch Ausgabegrenzen, Positionseinbettungsbeschränkungen und GPU-Speicherengpässe überwunden werden. Die Leistung wird erreicht, indem natürliche Sprache als Schließbäume modelliert wird, die sowohl in Länge als auch in Tiefe gemessen werden, anstatt als lineare Sequenzen. Die Schließbäume bestehen aus Aufgaben mit Gedanken, rekursiven Unteraufgaben und Schlussfolgerungen, basierend auf dem Konzept, das wir in Schroeder et al., 2025 vorgeschlagen haben. Während der Generierung pflegen wir einen Arbeitsspeicher, der nur die Schlüssel-Wert-Zustände der relevantesten Kontext-Token speichert, die durch einen regelbasierten Unteraufgaben-Beschneidungsmechanismus ausgewählt werden. Dies ermöglicht die Wiederverwendung von Positionseinbettungen und GPU-Speicherseiten während des Schließens. Experimentelle Ergebnisse zeigen, dass unser System eine hohe Inferenzdurchsatzrate aufrechterhält, selbst wenn bis zu 90 % des KV-Caches im GPU-Speicher manipuliert werden. Es liefert auch präzises Schließen bei mathematischen Aufgaben und bewältigt Informationsabfragen, die langfristiges Schließen und mehrstufigen Werkzeugeinsatz erfordern.
Dieses Papier stellt Step-Audio~2 vor, ein end-to-end multimodales großes Sprachmodell, das für die industrietaugliche Audioverständnis und Sprachkonversation entwickelt wurde. Durch die Integration eines latenten Audio-Encoders und eines reasoning-zentrierten Reinforcement Learning (RL) erreicht Step-Audio 2 vielversprechende Leistungen in der automatischen Spracherkennung (ASR) und im Audioverständnis. Um eine echte end-to-end Sprachkonversation zu ermöglichen, integriert Step-Audio 2 die Erzeugung diskreter Audio-Tokens in die Sprachmodellierung, wodurch die Reaktionsfähigkeit auf paralinguistische Informationen wie Sprechstile und Emotionen erheblich verbessert wird. Um das reichhaltige textuelle und akustische Wissen in realen Daten effektiv zu nutzen, integriert Step-Audio 2 retrieval-augmentierte Generierung (RAG) und ist in der Lage, externe Werkzeuge wie Websuche zur Reduzierung von Halluzinationen und Audiosuche zur Änderung von Klangfarben aufzurufen. Mit Millionen von Stunden an Sprach- und Audiodaten trainiert, bietet Step-Audio 2 Intelligenz und Ausdruckskraft in verschiedenen Konversationsszenarien. Evaluierungsergebnisse zeigen, dass Step-Audio 2 im Vergleich zu anderen Open-Source- und kommerziellen Lösungen state-of-the-art Leistungen in verschiedenen Audioverständnis- und Konversationsbenchmarks erreicht. Weitere Informationen finden Sie unter https://github.com/stepfun-ai/Step-Audio2.
Wissenschaftliches Denken ist entscheidend für die Entwicklung von KI-Wissenschaftlern und die Unterstützung menschlicher Forscher bei der Erweiterung der Grenzen der naturwissenschaftlichen Entdeckungen. Die Open-Source-Community hat sich jedoch hauptsächlich auf Mathematik und Programmierung konzentriert, während der wissenschaftliche Bereich vernachlässigt wurde, was größtenteils auf das Fehlen offener, groß angelegter, hochwertiger und überprüfbarer Datensätze für wissenschaftliches Denken zurückzuführen ist. Um diese Lücke zu schließen, stellen wir zunächst TextbookReasoning vor, einen offenen Datensatz mit zuverlässigen Referenzantworten, die aus 12.000 universitären wissenschaftlichen Lehrbüchern extrahiert wurden und 650.000 Denkfragen aus 7 wissenschaftlichen Disziplinen umfassen. Darüber hinaus führen wir MegaScience ein, eine groß angelegte Mischung hochwertiger Open-Source-Datensätze mit insgesamt 1,25 Millionen Instanzen, die durch systematische Ablationsstudien entwickelt wurden, um verschiedene Datenauswahlmethoden zu bewerten und die optimale Teilmenge für jeden öffentlich verfügbaren wissenschaftlichen Datensatz zu identifizieren. Gleichzeitig haben wir ein umfassendes Bewertungssystem aufgebaut, das verschiedene Themen und Fragetypen über 15 Benchmarks abdeckt und umfassende Strategien zur Antwortextraktion integriert, um genaue Bewertungsmetriken sicherzustellen. Unsere Experimente zeigen, dass unsere Datensätze im Vergleich zu bestehenden Open-Source-wissenschaftlichen Datensätzen eine überlegene Leistung und Trainings effizienz bei kürzeren Antwortlängen erzielen. Darüber hinaus trainieren wir die Basismodelle der Llama3.1-, Qwen2.5- und Qwen3-Serie auf MegaScience, die in der durchschnittlichen Leistung die entsprechenden offiziellen Instruct-Modelle deutlich übertreffen. Zudem zeigt MegaScience eine größere Wirksamkeit für größere und stärkere Modelle, was auf einen Skalierungsvorteil für wissenschaftliches Fine-Tuning hindeutet. Wir stellen unsere Datenkuratierungspipeline, das Bewertungssystem, die Datensätze und sieben trainierte Modelle der Community zur Verfügung, um die Forschung im Bereich des wissenschaftlichen Denkens voranzutreiben.
Vision-Language-Action (VLA)-Reasoning-Aufgaben erfordern, dass Agenten multimodale Anweisungen interpretieren, langfristige Planungen durchführen und sich in dynamischen Umgebungen adaptiv verhalten. Bestehende Ansätze trainieren VLA-Modelle typischerweise end-to-end, indem sie Eingaben direkt auf Aktionen abbilden, ohne explizites Reasoning. Dies behindert ihre Fähigkeit, über mehrere Schritte zu planen oder sich an komplexe Aufgabenvariationen anzupassen. In diesem Artikel stellen wir ThinkAct vor, ein Dual-System-Framework, das hochrangiges Reasoning mit niederrangiger Aktionsausführung durch verstärktes visuelles latentes Planen verbindet. ThinkAct trainiert ein multimodales LLM, um verkörpertes Reasoning-Pläne zu generieren, die durch verstärkende, aktionsausgerichtete visuelle Belohnungen basierend auf Zielerreichung und Trajektorienkonsistenz geleitet werden. Diese Reasoning-Pläne werden in ein visuelles Plan-Latent komprimiert, das ein nachgelagertes Aktionsmodell für robuste Aktionsausführung in Zielumgebungen konditioniert. Umfangreiche Experimente auf Benchmarks für verkörpertes Reasoning und Roboter-Manipulation zeigen, dass ThinkAct Few-Shot-Adaption, langfristige Planung und Selbstkorrekturverhalten in komplexen verkörperten KI-Aufgaben ermöglicht.
Diffusion-Transformer haben sich als Alternative zu U-Net-basierten Diffusionsmodellen für die hochauflösende Bild- und Videogenerierung etabliert und bieten eine überlegene Skalierbarkeit. Allerdings bleibt ihr hoher Rechenaufwand ein wesentliches Hindernis für den praktischen Einsatz. Bestehende Beschleunigungsmethoden nutzen vorwiegend die zeitliche Dimension, beispielsweise durch die Wiederverwendung von zwischengespeicherten Merkmalen über verschiedene Diffusions-Zeitschritte hinweg. Hier schlagen wir Region-Adaptive Latent Upsampling (RALU) vor, ein trainingsfreies Framework, das die Inferenz entlang der räumlichen Dimension beschleunigt. RALU führt eine gemischte Auflösungsabtastung in drei Stufen durch: 1) Rauschreduktion in niedriger Auflösung durch latente Diffusion, um effizient die globale semantische Struktur zu erfassen, 2) regionsadaptives Upsampling spezifischer Bereiche, die bei voller Auflösung anfällig für Artefakte sind, und 3) vollständiges latentes Upsampling in hoher Auflösung zur Detailverfeinerung. Um die Generierung über Auflösungsübergänge hinweg zu stabilisieren, nutzen wir eine Rausch-Zeitschritt-Neuplanung, um das Rauschniveau über verschiedene Auflösungen anzupassen. Unsere Methode reduziert den Rechenaufwand erheblich, während die Bildqualität erhalten bleibt, indem sie eine Beschleunigung um bis zu das 7,0-fache bei FLUX und das 3,0-fache bei Stable Diffusion 3 mit minimaler Qualitätseinbuße erreicht. Darüber hinaus ist RALU komplementär zu bestehenden zeitlichen Beschleunigungsmethoden wie Caching-Verfahren und kann nahtlos integriert werden, um die Inferenzlatenz weiter zu reduzieren, ohne die Generierungsqualität zu beeinträchtigen.
Menschen verwenden oft visuelle Hilfsmittel, wie Diagramme oder Skizzen, wenn sie komplexe Probleme lösen. Das Training multimodaler Modelle, um dasselbe zu tun, bekannt als Visuelle Gedankenkette (Visual Chain of Thought, Visual CoT), ist aufgrund folgender Herausforderungen schwierig: (1) schlechte Leistung von Standard-Visual-CoT-Modellen, was das Reinforcement Learning behindert, und (2) der Mangel an hochwertigen Trainingsdaten für Visual CoT. Wir stellen Zebra-CoT vor, einen vielfältigen, groß angelegten Datensatz mit 182.384 Proben, der logisch kohärente, verschachtelte Text-Bild-Denkprozesse enthält. Wir konzentrieren uns auf vier Kategorien von Aufgaben, bei denen Skizzieren oder visuelles Denken besonders natürlich ist, darunter wissenschaftliche Fragen wie Geometrie, Physik und Algorithmen; 2D-visuelle Denkaufgaben wie visuelle Suche und Puzzles; 3D-Denkaufgaben einschließlich 3D-Multi-Hop-Inferenz, verkörperte und Roboterplanung; visuelle Logikprobleme und strategische Spiele wie Schach. Das Feinabstimmen des Anole-7B-Modells auf den Zebra-CoT-Trainingskorpus führt zu einer Verbesserung von +12 % in der Genauigkeit unseres Testdatensatzes und erzielt bis zu +13 % Leistungssteigerung in standardisierten VLM-Benchmark-Evaluierungen. Das Feinabstimmen von Bagel-7B ergibt ein Modell, das hochwertige, verschachtelte visuelle Denkketten erzeugt, was die Wirksamkeit von Zebra-CoT für die Entwicklung multimodaler Denkfähigkeiten unterstreicht. Wir stellen unseren Datensatz und unsere Modelle als Open Source zur Verfügung, um die Entwicklung und Evaluierung von Visual CoT zu unterstützen.
Die Verbesserung großer visuell-sprachlicher Modelle (LVLMs) durch visuelles Slow-Thinking-Reasoning ist entscheidend für die Lösung komplexer multimodaler Aufgaben. Da LVLMs jedoch hauptsächlich mit visuell-sprachlicher Ausrichtung trainiert werden, ist es schwierig, On-Policy Reinforcement Learning (RL) zur Entwicklung der Slow-Thinking-Fähigkeit einzusetzen, da der Rollout-Raum durch die anfänglichen Fähigkeiten eingeschränkt ist. Off-Policy RL bietet eine Möglichkeit, über die aktuelle Policy hinauszugehen, aber die direkte Destillation von Trajektorien aus externen Modellen kann aufgrund von nicht übereinstimmenden visuellen Wahrnehmungsfähigkeiten zwischen den Modellen zu visuellen Halluzinationen führen. Um diese Probleme zu adressieren, schlägt dieses Papier SOPHIA vor, ein einfaches und skalierbares Semi-Off-Policy RL für visuell-sprachliches Slow-Thinking-Reasoning. SOPHIA baut ein Semi-Off-Policy-Verhaltensmodell auf, indem es On-Policy visuelles Verständnis eines trainierbaren LVLM mit Off-Policy Slow-Thinking-Reasoning eines Sprachmodells kombiniert, ergebnisbasierte Belohnungen für das Reasoning zuweist und visuelle Belohnungen rückwärts propagiert. Anschließend lernt das LVLM die Slow-Thinking-Reasoning-Fähigkeit aus den erhaltenen Reasoning-Trajektorien mithilfe der propagierten Belohnungen über Off-Policy RL-Algorithmen. Umfangreiche Experimente mit InternVL2.5 und InternVL3.0 in den Größen 8B und 38B zeigen die Wirksamkeit von SOPHIA. Insbesondere verbessert SOPHIA InternVL3.0-38B im Durchschnitt um 8,50 % und erreicht state-of-the-art Leistungen unter Open-Source-LVLMs in mehreren multimodalen Reasoning-Benchmarks. Es übertrifft sogar einige Closed-Source-Modelle (z. B. GPT-4.1) in den anspruchsvollen Benchmarks MathVision und OlympiadBench mit einer Pass@1-Genauigkeit von 49,08 % bzw. 49,95 %. Analysen zeigen, dass SOPHIA überwachtes Fein-Tuning und direkte On-Policy RL-Methoden übertrifft und eine bessere Policy-Initialisierung für weiteres On-Policy-Training bietet.
Vision-Language-Modelle (VLMs) werden in der Robotik weit verbreitet eingesetzt, um autonome Planung zu ermöglichen. Die Anpassung von VLMs, die ursprünglich auf Internetdaten trainiert wurden, an verschiedene reale Roboter bleibt jedoch eine Herausforderung. Dieses Papier stellt ExpTeach vor, ein Framework, das VLMs an physische Roboter anbindet, indem es ein selbstgeneriertes Gedächtnis realer Erfahrungen aufbaut. In ExpTeach plant das VLM autonom Aktionen, überprüft Ergebnisse, reflektiert Fehler und passt das Verhalten des Roboters in einem geschlossenen Kreislauf an. Die während dieses Prozesses selbstgenerierten Erfahrungen werden dann in ein Langzeitgedächtnis zusammengefasst, das den Abruf erlernten Wissens ermöglicht, um zukünftige Aufgaben durch retrieval-augmented generation (RAG) zu steuern. Zusätzlich verbessert ExpTeach das räumliche Verständnis von VLMs durch ein Modul zur bedarfsgesteuerten Bildannotation. In Experimenten zeigen wir, dass Reflexion die Erfolgsquote von 36 % auf 84 % bei vier anspruchsvollen Robotikaufgaben steigert und die Entstehung intelligenter Objektinteraktionen, einschließlich kreativer Werkzeugnutzung, beobachtet wird. In umfangreichen Tests an 12 realen Szenarien (darunter acht unbekannte) stellen wir fest, dass die Anbindung an das Langzeitgedächtnis die Erfolgsquote bei Einzelversuchen von 22 % auf 80 % erhöht, was die Wirksamkeit und Generalisierbarkeit von ExpTeach demonstriert.
Mit der rasanten Weiterentwicklung von Large Language Models (LLMs) ist die Entwicklung effektiver Kritikmodule für präzise Anleitung entscheidend, aber auch herausfordernd geworden. In diesem Artikel zeigen wir zunächst, dass das überwachte Feinabstimmen zur Erstellung von Kritikmodulen (das in aktuellen Lösungen weit verbreitet ist) die Kritikfähigkeiten der Modelle nicht wirklich verbessert, sondern oberflächliche Kritiken mit unzureichenden Reflexionen und Überprüfungen erzeugt. Um bisher unerreichte Kritikfähigkeiten freizusetzen, schlagen wir RefCritic vor, ein langkettiges Denk-Kritikmodul, das auf Verstärkungslernen mit dualen regelbasierten Belohnungen basiert: (1) Instanzgenauigkeit der Lösungsbeurteilungen und (2) Verfeinerungsgenauigkeiten des Politikmodells basierend auf Kritiken, mit dem Ziel, hochwertige Bewertungen mit umsetzbarem Feedback zu generieren, das die Modellverfeinerung effektiv leitet. Wir evaluieren RefCritic auf Qwen2.5-14B-Instruct und DeepSeek-R1-Distill-Qwen-14B über fünf Benchmarks. In den Kritik- und Verfeinerungseinstellungen zeigt RefCritic durchweg Vorteile über alle Benchmarks hinweg, z.B. 6,8\% und 7,2\% Gewinne auf AIME25 für die jeweiligen Basismodelle. Bemerkenswerterweise zeigen unter Mehrheitsabstimmung die von RefCritic gefilterten Politikmodelle eine überlegene Skalierung mit zunehmender Abstimmungszahl. Darüber hinaus übertrifft RefCritic, obwohl es auf Lösungsebene überwacht trainiert wurde, schrittweise überwachte Ansätze auf ProcessBench, einem Benchmark zur Identifizierung fehlerhafter Schritte im mathematischen Denken.
Während bestehende bildgestützte Kompositionsmethoden dabei helfen können, ein Vordergrundobjekt in einen benutzerdefinierten Bereich eines Hintergrundbildes einzufügen und dabei eine natürliche Verschmelzung innerhalb des Bereichs bei unverändertem Rest des Bildes zu erreichen, beobachten wir, dass diese bestehenden Methoden oft Schwierigkeiten haben, nahtlose interaktionsbewusste Kompositionen zu synthetisieren, wenn die Aufgabe Mensch-Objekt-Interaktionen beinhaltet. In diesem Artikel schlagen wir zunächst HOComp vor, einen neuartigen Ansatz zur Komposition eines Vordergrundobjekts in ein menschenzentriertes Hintergrundbild, wobei harmonische Interaktionen zwischen dem Vordergrundobjekt und der Hintergrundperson sowie ihre konsistenten Erscheinungsbilder sichergestellt werden. Unser Ansatz umfasst zwei Schlüsseldesigns: (1) MLLM-gestützte regionsbasierte Posenerkennung (MRPG), die MLLMs nutzt, um die Interaktionsregion sowie den Interaktionstyp (z.B. Halten und Heben) zu identifizieren, um grob- bis feinabgestimmte Einschränkungen für die generierte Pose der Interaktion bereitzustellen, während menschliche Posemarkierungen einbezogen werden, um Aktionsvariationen zu verfolgen und fein abgestimmte Poseneinschränkungen durchzusetzen; und (2) detailkonsistente Erscheinungserhaltung (DCAP), die einen formbewussten Aufmerksamkeitsmodulationsmechanismus, einen multiview-Erscheinungsverlust und einen Hintergrundkonsistenzverlust vereint, um konsistente Formen/Texturen des Vordergrunds und eine treue Reproduktion der Hintergrundperson sicherzustellen. Anschließend schlagen wir den ersten Datensatz namens Interaction-aware Human-Object Composition (IHOC) für diese Aufgabe vor. Experimentelle Ergebnisse auf unserem Datensatz zeigen, dass HOComp effektiv harmonische Mensch-Objekt-Interaktionen mit konsistenten Erscheinungsbildern erzeugt und relevante Methoden qualitativ und quantitativ übertrifft.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben neue Möglichkeiten für die Recherche akademischer Literatur eröffnet. Bestehende Systeme beruhen jedoch oft auf starren Prozessabläufen und zeigen begrenzte Fähigkeiten zur logischen Schlussfolgerung. Wir stellen SPAR vor, ein Multi-Agenten-Framework, das RefChain-basierte Abfragezerlegung und Abfrageevolution integriert, um eine flexiblere und effektivere Suche zu ermöglichen. Um eine systematische Bewertung zu erleichtern, haben wir zudem SPARBench entwickelt, einen anspruchsvollen Benchmark mit von Experten annotierten Relevanzlabels. Experimentelle Ergebnisse zeigen, dass SPAR starke Baseline-Methoden deutlich übertrifft und eine Verbesserung von bis zu +56 % F1 auf AutoScholar und +23 % F1 auf SPARBench gegenüber der besten Baseline erzielt. Zusammen bieten SPAR und SPARBench eine skalierbare, interpretierbare und leistungsstarke Grundlage für die Weiterentwicklung der Forschung im Bereich der wissenschaftlichen Literaturrecherche. Code und Daten werden unter https://github.com/xiaofengShi/SPAR verfügbar sein.
Quantisierung ist eine Schlüsseltechnik zur Reduzierung der Netzwerkgröße und der Rechenkomplexität, indem die Netzwerkparameter mit einer geringeren Präzision dargestellt werden. Traditionelle Quantisierungsmethoden setzen den Zugriff auf die ursprünglichen Trainingsdaten voraus, der häufig aufgrund von Datenschutzbedenken oder Sicherheitsanforderungen eingeschränkt ist. Zero-Shot-Quantisierung (ZSQ) adressiert dies, indem synthetische Daten verwendet werden, die aus vortrainierten Modellen generiert werden, wodurch der Bedarf an echten Trainingsdaten entfällt. Kürzlich wurde ZSQ auf die Objekterkennung ausgeweitet. Allerdings verwenden bestehende Methoden unmarkierte, aufgabenunabhängige synthetische Bilder, denen die spezifischen Informationen für die Objekterkennung fehlen, was zu suboptimalen Ergebnissen führt. In diesem Artikel schlagen wir ein neuartiges aufgabenspezifisches ZSQ-Framework für Objekterkennungsnetzwerke vor, das aus zwei Hauptphasen besteht. Zunächst führen wir eine Strategie zur Stichprobenziehung von Begrenzungsrahmen und Kategorien ein, um einen aufgabenspezifischen Kalibrierungssatz aus dem vortrainierten Netzwerk zu synthetisieren, wodurch Objektpositionen, -größen und Kategorieverteilungen ohne jegliches Vorwissen rekonstruiert werden. Zweitens integrieren wir aufgabenspezifisches Training in den Wissensdistillationsprozess, um die Leistung quantisierter Erkennungsnetzwerke wiederherzustellen. Umfangreiche Experimente, die auf den MS-COCO- und Pascal-VOC-Datensätzen durchgeführt wurden, demonstrieren die Effizienz und die state-of-the-art Leistung unserer Methode. Unser Code ist öffentlich verfügbar unter: https://github.com/DFQ-Dojo/dfq-toolkit.
Die Personalisierung von KI-Systemen erfordert nicht nur das Verständnis der Präferenzen der Nutzer, sondern auch der Gründe, die diesen Präferenzen zugrunde liegen – dennoch behandeln aktuelle Präferenzmodelle menschliche Urteile typischerweise als Blackbox. Wir stellen PrefPalette vor, ein Framework, das Präferenzen in Attributdimensionen zerlegt und seine Präferenzvorhersage auf die spezifischen Werte verschiedener sozialer Gemeinschaften in einer für Menschen interpretierbaren Weise abstimmt. PrefPalette operationalisiert ein Prinzip der Kognitionswissenschaft, das als mehrdimensionale Entscheidungsfindung bekannt ist, auf zwei Arten: (1) einen skalierbaren Schritt der kontrafaktischen Attributsynthese, bei dem synthetische Trainingsdaten generiert werden, um die Effekte einzelner Attribute (z. B. Formalität, Humor, kulturelle Werte) zu isolieren, und (2) ein auf Aufmerksamkeit basierendes Präferenzmodellierung, das lernt, wie verschiedene soziale Gemeinschaften diese Attribute dynamisch gewichten. Dieser Ansatz geht über die aggregierte Präferenzmodellierung hinaus, um die vielfältigen Bewertungsrahmen zu erfassen, die menschliche Urteile antreiben. Bei der Auswertung von 45 sozialen Gemeinschaften der Online-Plattform Reddit übertraf PrefPalette GPT-4o um 46,6 % in der durchschnittlichen Vorhersagegenauigkeit. Neben den reinen Vorhersageverbesserungen lieferte PrefPalette auch intuitive, gemeinschaftsspezifische Profile: wissenschaftliche Gemeinschaften priorisieren Ausführlichkeit und Anregung, konfliktorientierte Gemeinschaften schätzen Sarkasmus und Direktheit, und unterstützungsbasierte Gemeinschaften betonen Empathie. Indem PrefPalette die attributvermittelte Struktur menschlicher Urteile modelliert, bietet es sowohl eine überlegene Präferenzmodellierung als auch transparente, interpretierbare Einblicke und stellt einen ersten Schritt hin zu vertrauenswürdigeren, wertbewussten personalisierten Anwendungen dar.
3D Gaussian Splatting ist bekannt für seine hochauflösenden Rekonstruktionen und die Echtzeit-Synthese neuer Ansichten, doch das Fehlen von semantischem Verständnis begrenzt die Objektebene der Wahrnehmung. In dieser Arbeit präsentieren wir ObjectGS, ein objektbewusstes Framework, das 3D-Szenenrekonstruktion mit semantischem Verständnis vereint. Anstatt die Szene als einheitliches Ganzes zu behandeln, modelliert ObjectGS einzelne Objekte als lokale Anker, die neuronale Gaussians erzeugen und Objekt-IDs teilen, wodurch eine präzise Rekonstruktion auf Objektebene ermöglicht wird. Während des Trainings erweitern oder reduzieren wir diese Anker dynamisch und optimieren ihre Merkmale, während eine One-Hot-ID-Kodierung mit einem Klassifikationsverlust klare semantische Einschränkungen durchsetzt. Wir zeigen durch umfangreiche Experimente, dass ObjectGS nicht nur state-of-the-art Methoden bei Open-Vocabulary- und Panoptic-Segmentierungsaufgaben übertrifft, sondern sich auch nahtlos in Anwendungen wie Meshextraktion und Szenenbearbeitung integrieren lässt. Projektseite: https://ruijiezhu94.github.io/ObjectGS_page
Kürzlich zeigten Zaremba et al., dass eine Erhöhung der Inferenzzeit-Berechnung die Robustheit großer proprietärer Reasoning-LLMs verbessert. In diesem Artikel zeigen wir zunächst, dass auch kleinere, Open-Source-Modelle (z. B. DeepSeek R1, Qwen3, Phi-reasoning) von einer Inferenzzeit-Skalierung mittels einer einfachen Budget-Forcing-Strategie profitieren können. Noch wichtiger ist, dass wir eine implizite Annahme in früheren Arbeiten aufdecken und kritisch untersuchen: Zwischenschritte des Reasonings sind vor Angreifern verborgen. Indem wir diese Annahme lockern, identifizieren wir ein bedeutendes Sicherheitsrisiko, das intuitiv motiviert und empirisch als ein inverses Skalierungsgesetz bestätigt wird: Wenn Zwischenschritte des Reasonings explizit zugänglich werden, verringert eine erhöhte Inferenzzeit-Berechnung konsequent die Robustheit des Modells. Schließlich diskutieren wir praktische Szenarien, in denen Modelle mit verborgenen Reasoning-Ketten dennoch anfällig für Angriffe sind, wie z. B. Modelle mit tool-integriertem Reasoning und fortgeschrittenen Reasoning-Extraktionsangriffen. Unsere Ergebnisse zeigen insgesamt, dass die Robustheitsvorteile der Inferenzzeit-Skalierung stark von der adversarischen Umgebung und dem Einsatzkontext abhängen. Wir appellieren an Praktiker, diese subtilen Abwägungen sorgfältig zu berücksichtigen, bevor sie die Inferenzzeit-Skalierung in sicherheitskritischen, realen Anwendungen einsetzen.
Das Feinabstimmen großer Sprachmodelle (LLMs) kann zu unbeabsichtigter Generalisierung außerhalb der Verteilung führen. Standardansätze für dieses Problem beruhen auf der Modifikation der Trainingsdaten, beispielsweise durch das Hinzufügen von Daten, die die beabsichtigte Generalisierung besser spezifizieren. Dies ist jedoch nicht immer praktikabel. Wir stellen Concept Ablation Fine-Tuning (CAFT) vor, eine Technik, die Interpretierbarkeitstools nutzt, um zu steuern, wie LLMs aus dem Feinabstimmen generalisieren, ohne dass die Trainingsdaten modifiziert oder Daten aus der Zielverteilung verwendet werden müssen. Bei einer gegebenen Menge von Richtungen im latenten Raum eines LLMs, die unerwünschten Konzepten entsprechen, arbeitet CAFT durch die Ablation dieser Konzepte mittels linearer Projektionen während des Feinabstimmens, wodurch das Modell von unbeabsichtigten Generalisierungen abgelenkt wird. Wir wenden CAFT erfolgreich auf drei Feinabstimmungsaufgaben an, einschließlich des Phänomens der emergenten Fehlausrichtung, bei dem LLMs, die auf eine eng gefasste Aufgabe feinabgestimmt wurden, auf allgemeine Fragen eklatant fehlausgerichtete Antworten geben. Ohne Änderungen an den Feinabstimmungsdaten reduziert CAFT fehlausgerichtete Antworten um das Zehnfache, ohne die Leistung auf der Trainingsverteilung zu beeinträchtigen. Insgesamt repräsentiert CAFT einen neuartigen Ansatz zur Steuerung der LLM-Generalisierung ohne Modifikation der Trainingsdaten.