papers.description
Da Sprachmodelle zunehmend leistungsfähiger werden, erwarten Nutzer von ihnen nicht nur präzise Antworten, sondern auch Verhaltensweisen, die mit unterschiedlichen menschlichen Präferenzen in verschiedenen Szenarien übereinstimmen. Um dies zu erreichen, integrieren Reinforcement-Learning (RL)-Pipelines zunehmend mehrere Belohnungssignale, von denen jedes eine bestimmte Präferenz erfasst, um Modelle in Richtung dieser gewünschten Verhaltensweisen zu lenken. Jüngere Arbeiten wenden jedoch standardmäßig Group Relative Policy Optimization (GRPO) in Multi-Belohnungs-Szenarien an, ohne deren Eignung zu prüfen. In dieser Arbeit zeigen wir, dass die direkte Anwendung von GRPO zur Normalisierung unterschiedlicher Rollout-Belohnungskombinationen dazu führt, dass diese zu identischen Advantage-Werten kollabieren. Dies reduziert die Auflösung des Trainingssignals und führt zu suboptimaler Konvergenz sowie in einigen Fällen zu frühzeitigem Trainingsversagen. Wir stellen daraufhin Group reward-Decoupled Normalization Policy Optimization (GDPO) vor, eine neue Policy-Optimierungsmethode, die diese Probleme behebt, indem sie die Normalisierung individueller Belohnungen entkoppelt. Dadurch werden deren relative Unterschiede treuer bewahrt und eine präzisere Multi-Belohnungs-Optimierung bei deutlich verbesserter Trainingsstabilität ermöglicht. Wir vergleichen GDPO mit GRPO in drei Aufgabenbereichen: Tool-Aufruf, mathematisches Reasoning und Programmier-Reasoning, wobei sowohl Korrektheitsmetriken (Genauigkeit, Bug-Rate) als auch Metriken zur Einhaltung von Randbedingungen (Format, Länge) ausgewertet werden. In allen Konfigurationen übertrifft GDPO durchgängig GRPO, was seine Effektivität und Generalisierbarkeit für die Multi-Belohnungs-Optimierung im Reinforcement Learning demonstriert.
Die Anwendung von Gewichtsverfalls (Weight Decay, WD) auf Matrixschichten ist Standard in der Vortrainierung großer Sprachmodelle. Frühere Arbeiten legen nahe, dass stochastisches Gradientenrauschen eine brownianische Expansion der Gewichtsmatrizen W induziert, deren Wachstum durch WD ausgeglichen wird, was zu einem WD-Rauschen-Gleichgewicht mit einer bestimmten Gewichtsnorm ||W|| führt. In dieser Arbeit betrachten wir die Gleichgewichtsnorm als schädliches Artefakt des Trainingsverfahrens und adressieren dies durch die Einführung lernbarer Multiplikatoren, um die optimale Skalierung zu erlernen. Zuerst fügen wir W einen lernbaren skalaren Multiplikator hinzu und bestätigen, dass die WD-Rauschen-Gleichgewichtsnorm suboptimal ist: Die erlernte Skalierung passt sich an die Daten an und verbessert die Leistung. Wir argumentieren anschließend, dass individuelle Zeilen- und Spaltennormen ähnlich eingeschränkt sind, und befreien deren Skalierung durch die Einführung lernbarer zeilen- und spaltenweiser Multiplikatoren. Unsere Methode kann als eine lernbare, ausdrucksstärkere Verallgemeinerung von muP-Multiplikatoren betrachtet werden. Sie übertrifft eine gut abgestimmte muP-Baseline, reduziert den Rechenaufwand für die Multiplikatorabstimmung und wirft praktische Fragen auf, wie z.B. Vorwärtspass-Symmetrien und die Breitenskalerung der gelernten Multiplikatoren. Abschließend validieren wir lernbare Multiplikatoren mit sowohl Adam- als auch Muon-Optimierern, wobei sie eine Verbesserung in nachgelagerten Evaluierungen zeigen, die der Verbesserung durch den Wechsel von Adam zu Muon entspricht.
Die nächtliche Farbkonstanz bleibt aufgrund von Rauschen bei schwachem Licht und komplexen Beleuchtungsbedingungen eine herausfordernde Aufgabe in der computergestützten Fotografie. Wir stellen RL-AWB vor, einen neuartigen Rahmen, der statistische Methoden mit tiefem bestärkendem Lernen für den nächtlichen Weißabgleich kombiniert. Unser Ansatz beginnt mit einem speziell für Nachtszenen entwickelten statistischen Algorithmus, der die Erkennung salienter Graupixel mit neuartiger Beleuchtungsschätzung integriert. Auf dieser Grundlage aufbauend entwickeln wir den ersten Deep-Reinforcement-Learning-Ansatz für Farbkonstanz, der den statistischen Algorithmus als Kernkomponente nutzt und professionelle AWB-Abgleichsexperten nachahmt, indem Parameter für jedes Bild dynamisch optimiert werden. Um die sensorübergreifende Evaluation zu ermöglichen, führen wir den ersten Multi-Sensor-Nachtdatensatz ein. Experimentelle Ergebnisse belegen, dass unsere Methode eine überlegene Generalisierungsfähigkeit über schwach und gut beleuchtete Bilder hinweg erreicht. Projektseite: https://ntuneillee.github.io/research/rl-awb/
Große Sprachmodelle (LLMs) zeigen Stärken in verschiedenen Domänen. Allerdings erfordert die Erzielung einer hohen Leistungsfähigkeit über diese Domänen hinweg mit einem einzigen Allzweckmodell typischerweise eine Skalierung auf Größen, die in Bezug auf Trainings- und Bereitstellungskosten prohibitiv hoch sind. Andererseits, obwohl kleinere, domänenspezialisierte Modelle deutlich effizienter sind, haben sie Schwierigkeiten, über ihre Trainingsverteilungen hinaus zu generalisieren. Um dieses Dilemma zu adressieren, schlagen wir FusionRoute vor, ein robustes und effektives Token-level Multi-LLM-Kollaborationsframework, in dem ein leichtgewichtiger Router gleichzeitig (i) den jeweils am besten geeigneten Experten bei jedem Dekodierungsschritt auswählt und (ii) einen komplementären Logit-Wert beisteuert, der die Next-Token-Verteilung des gewählten Experten durch Logit-Addition verfeinert oder korrigiert. Im Gegensatz zu bestehenden Token-level-Kollaborationsmethoden, die sich ausschließlich auf feste Expertenausgaben verlassen, liefern wir eine theoretische Analyse, die zeigt, dass reines Experten-only-Routing grundlegend limitiert ist: Sofern keine starken Annahmen zur globalen Abdeckung gelten, kann es im Allgemeinen die optimale Dekodierungsstrategie nicht realisieren. Durch die Erweiterung der Expertenauswahl um einen trainierbaren komplementären Generator erweitert FusionRoute die effektive Strategieklasse und ermöglicht die Wiederherstellung optimaler Wertfunktionen unter milden Bedingungen. Empirisch zeigt FusionRoute über sowohl die Llama-3- als auch die Gemma-2-Modellfamilien und diverse Benchmarks hinweg, die mathematisches Reasoning, Code-Generierung und Instruktionsbefolgung abdecken, dass es sowohl Sequenz- als auch Token-level-Kollaboration, Modellzusammenführung und direktes Fine-Tuning übertrifft, während es mit Domänenexperten auf deren jeweiligen Aufgaben wettbewerbsfähig bleibt.
Die Vielfalt, Menge und Qualität von Manipulationsdaten sind entscheidend für das Training effektiver Roboterpolitiken. Aufgrund von Hardware- und physikalischen Aufbaubeschränkungen bleibt die Erfassung groß angelegter realer Manipulationsdaten jedoch schwierig skalierbar über verschiedene Umgebungen hinweg. Neuere Arbeiten nutzen textgesteuerte Bilddiffusionsmodelle, um Manipulationsdaten durch Veränderung der Hintergründe und Tischobjekte in den visuellen Beobachtungen zu erweitern. Diese Ansätze übersehen jedoch oft den praktischen Bedarf an multivisuellen und zeitlich kohärenten Beobachtungen, die von modernsten Politkmodellen benötigt werden. Darüber hinaus können Textprompts allein die Szeneneinrichtung nicht zuverlässig spezifizieren. Um dem Diffusionsmodell eine explizite visuelle Führung zu bieten, führen wir visuelle Identitätsprompts ein, die Beispielbilder als Konditionierungseingaben bereitstellen, um die Generierung der gewünschten Szeneneinrichtung zu steuern. Zu diesem Zweck bauen wir auch eine skalierbare Pipeline auf, um einen Pool visueller Identitäten aus großen Robotikdatensätzen zu kuratieren. Die Verwendung unserer erweiterten Manipulationsdaten zum Training nachgelagerter Vision-Language-Action- und Visuomotorik-Politikmodelle führt sowohl in Simulationen als auch in realen Robotikumgebungen zu konsistenten Leistungsverbesserungen.
Große Sprachmodelle (LLMs) für komplexes Schließen werden häufig durch hohe Rechenkosten und Latenzzeiten beeinträchtigt, während ressourceneffiziente Kleine Sprachmodelle (SLMs) typischerweise die notwendige Schlussfolgerungsfähigkeit vermissen lassen. Bestehende kollaborative Ansätze, wie Kaskadierung oder Routing, operieren auf einer groben Granularitätsebene, indem sie gesamte Anfragen an LLMs auslagern, was zu erheblichem Rechenaufwand führt, wenn das SLM den Großteil der Denkschritte bewältigen könnte. Um dies zu adressieren, schlagen wir RelayLLM vor, einen neuartigen Rahmen für effizientes Schließen durch token-level kollaborative Dekodierung. Im Gegensatz zu Routern befähigt RelayLLM das SLM, als aktiver Controller zu agieren, der den LLM dynamisch nur für kritische Tokens über einen speziellen Befehl aufruft und so den Generierungsprozess effektiv "weitergibt". Wir führen ein zweistufiges Trainingsframework ein, bestehend aus Warm-up und Group Relative Policy Optimization (GRPO), um dem Modell beizubringen, Unabhängigkeit mit strategischer Hilfesuche abzuwägen. Empirische Ergebnisse über sechs Benchmarks zeigen, dass RelayLLM eine durchschnittliche Genauigkeit von 49,52 % erreicht und so die Leistungslücke zwischen den beiden Modellen effektiv schließt. Bemerkenswerterweise wird dies erreicht, indem der LLM für nur 1,07 % der insgesamt generierten Tokens aufgerufen wird, was eine Kostenreduzierung von 98,2 % im Vergleich zu leistungsäquivalenten Zufalls-Routern bietet.
LLM-Agenten haben sich als leistungsstarke Systeme etabliert, um mehrstufige Aufgaben durch das Verzahnen von internem Reasoning und externen Werkzeuginteraktionen zu bewältigen. Agentic Reinforcement Learning hat in letzter Zeit als ein entscheidendes Nachtrainierungsparadigma zur weiteren Verfeinerung dieser Fähigkeiten erhebliche Forschungsaufmerksamkeit auf sich gezogen. In diesem Artikel stellen wir AT^2PO (Agentic Turn-based Policy Optimization via Tree Search) vor, einen einheitlichen Rahmen für mehrstufiges agentisches Reinforcement Learning, der drei zentrale Herausforderungen adressiert: begrenzte Explorationsvielfalt, sparse Credit Assignment und fehlausgerichtete Policy-Optimierung. AT^2PO führt eine zugbasierte Baumstruktur ein, die gemeinsam eine entropiegeführte Baumerweiterung für strategische Exploration und eine zugweise Credit Assignment für feingranulare Belohnungspropagation von spärlichen Ergebnissen ermöglicht. Ergänzend dazu schlagen wir Agentic Turn-based Policy Optimization vor, ein zumbasiertes Lernziel, das Policy-Updates mit der natürlichen Entscheidungsgranularität agentischer Interaktionen in Einklang bringt. ATPO ist orthogonal zur Baumsuche und kann problemlos in jede mehrstufige RL-Pipeline integriert werden. Experimente über sieben Benchmarks hinweg demonstrieren durchgängige Verbesserungen gegenüber dem state-of-the-art Baseline von bis zu 1,84 Prozentpunkten im Durchschnitt, wobei Ablationsstudien die Wirksamkeit jeder Komponente validieren. Unser Code ist verfügbar unter https://github.com/zzfoutofspace/ATPO.
Chain-of-Thought (CoT)-Reasoning hat sich als leistungsstarkes Werkzeug für multimodale große Sprachmodelle bei Video-Verständnisaufgaben erwiesen. Dessen Notwendigkeit und Vorteile gegenüber dem direkten Beantworten sind jedoch noch unzureichend erforscht. In dieser Arbeit zeigen wir zunächst, dass bei RL-trainierten Videomodellen das direkte Beantworten oft mit der CoT-Leistung gleichzieht oder diese sogar übertrifft, obwohl CoT schrittweise Analysen mit höheren Rechenkosten produziert. Motiviert durch diese Erkenntnis schlagen wir VideoAuto-R1 vor, ein Video-Verständnis-Framework, das eine „Reason-when-necessary“-Strategie verfolgt. Während des Trainings folgt unser Ansatz einem „Thinking Once, Answering Twice“-Paradigma: Das Modell generiert zuerst eine initiale Antwort, führt dann eine Reasoning-Phase durch und gibt schließlich eine überprüfte Antwort aus. Beide Antworten werden über verifizierbare Belohnungen supervidiert. Während der Inferenz verwendet das Modell den Konfidenzwert der initialen Antwort, um zu entscheiden, ob mit dem Reasoning fortgefahren werden soll. In Video-QA- und Grounding-Benchmarks erreicht VideoAuto-R1 state-of-the-art Genauigkeit bei deutlich verbesserter Effizienz, indem die durchschnittliche Antwortlänge um ~3,3x reduziert wird, z.B. von 149 auf nur 44 Tokens. Darüber hinaus beobachten wir eine niedrige Aktivierungsrate des Denkmodus bei wahrnehmungsorientierten Aufgaben, jedoch eine höhere Rate bei reasoning-intensiven Aufgaben. Dies deutet darauf hin, dass explizites sprachbasiertes Reasoning generell vorteilhaft, aber nicht immer notwendig ist.
Vision-Language-Models (VLMs) erzielen bemerkenswerte Leistungen, bleiben jedoch anfällig für adversariale Angriffe. Die Entropie, ein Maß für die Modellunsicherheit, korreliert stark mit der Zuverlässigkeit von VLMs. Bisherige entropiebasierte Angriffe maximieren die Unsicherheit in allen Decodierschritten und nehmen dabei implizit an, dass jeder Token gleichermaßen zur Generierungsinstabilität beiträgt. Wir zeigen stattdessen, dass ein kleiner Anteil (etwa 20 %) von Hoch-Entropie-Tokens, d.h. kritischen Entscheidungspunkten in der autoregressiven Generierung, die Ausgabepfade unverhältnismäßig stark steuert. Durch die Konzentration adversarialer Störungen auf diese Positionen erreichen wir eine semantische Verschlechterung, die mit globalen Methoden vergleichbar ist, bei deutlich geringerem Budget. Noch wichtiger ist, dass solche selektiven Angriffe bei mehreren repräsentativen VLMs 35–49 % der harmlosen Ausgaben in schädliche umwandeln und damit ein kritischeres Sicherheitsrisiko aufdecken. Bemerkenswerterweise treten diese anfälligen Hoch-Entropie-Verzweigungen architekturübergreifend bei verschiedenen VLMs auf und ermöglichen eine praktikable Übertragbarkeit (17–26 % schädliche Ausgaben auf unbekannten Zielmodellen). Aufbauend auf diesen Erkenntnissen schlagen wir Entropy-bank Guided Adversarial Attacks (EGA) vor, die wettbewerbsfähige Angriffserfolgsraten (93–95 %) bei gleichzeitig hoher Schadumwandlung erreichen und damit neue Schwachstellen in aktuellen VLM-Sicherheitsmechanismen aufdecken.
Videoweltenmodelle zielen darauf ab, dynamische, realweltliche Umgebungen zu simulieren, doch bestehende Methoden haben Schwierigkeiten, eine einheitliche und präzise Steuerung der Kamera- und Multi-Objekt-Bewegung zu ermöglichen, da Videos die Dynamik inhärent in der projizierten 2D-Bildebene abbilden. Um diese Lücke zu schließen, stellen wir VerseCrafter vor, ein 4D-bewusstes Videoweltenmodell, das eine explizite und kohärente Steuerung sowohl der Kamera- als auch der Objektdynamik innerhalb eines einheitlichen 4D-geometrischen Weltzustands ermöglicht. Unser Ansatz konzentriert sich auf eine neuartige 4D-Geometrische-Steuerungs-Repräsentation, die den Weltzustand durch eine statische Hintergrund-Punktwolke und pro-Objekt-3D-Gauß-Trajektorien kodiert. Diese Repräsentation erfasst nicht nur den Pfad eines Objekts, sondern auch seine probabilistische 3D-Belegung über die Zeit und bietet damit eine flexible, kategorieagnostische Alternative zu starren Begrenzungsrahmen oder parametrischen Modellen. Diese 4D-Steuerungen werden zu Konditionierungssignalen für ein vortrainiertes Videodiffusionsmodell gerendert, was die Erzeugung von hochwertigen, blickkonsistenten Videos ermöglicht, die exakt den vorgegebenen Dynamiken folgen. Eine weitere große Herausforderung liegt leider in der Knappheit an großangelegten Trainingsdaten mit expliziten 4D-Annotationen. Wir begegnen dem durch die Entwicklung einer automatischen Daten-Engine, die die erforderlichen 4D-Steuerungen aus unkontrolliert aufgenommenen Videos extrahiert, was es uns erlaubt, unser Modell auf einem massiven und diversen Datensatz zu trainieren.
Mixture-of-Experts-Modelle wird allgemein unterstellt, dass sie durch sparsames Routing Domänenspezialisierung erreichen. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir COMMITTEEAUDIT vorstellen, ein Post-hoc-Framework, das das Routing-Verhalten auf der Ebene von Expertengruppen anstelle einzelner Experten analysiert. Anhand von drei repräsentativen Modellen und dem MMLU-Benchmark decken wir einen domäneninvarianten "Ständigen Ausschuss" (Standing Committee) auf. Dabei handelt es sich um eine kompakte Gruppe von gerouteten Experten, die konsistent den Großteil der Routing-Masse über Domänen, Layer und Routing-Budgets hinweg auf sich zieht, selbst wenn Architekturen bereits Shared Experts enthalten. Qualitative Analysen zeigen weiterhin, dass Ständige Ausschüsse die Argumentationsstruktur und Syntax verankern, während periphere Experten domänenspezifisches Wissen verarbeiten. Diese Ergebnisse offenbaren eine starke strukturelle Verzerrung hin zu zentralisierter Berechnung, was nahelegt, dass die Spezialisierung in Mixture-of-Experts-Modellen bei weitem nicht so verbreitet ist, wie gemeinhin angenommen. Diese inhärente Verzerrung deutet zudem darauf hin, dass aktuelle Trainingsziele, wie Lastverteilungsverluste (Load-Balancing Losses), die eine gleichmäßige Expertenauslastung erzwingen, möglicherweise dem natürlichen Optimierungspfad des Modells entgegenwirken und dadurch die Trainingseffizienz und Leistung begrenzen.
LLM-as-a-Judge hat die KI-Evaluation revolutioniert, indem es große Sprachmodelle für skalierbare Bewertungen nutzt. Da die zu bewertenden Systeme jedoch zunehmend komplexer, spezialisierter und mehrstufiger werden, ist die Zuverlässigkeit von LLM-as-a-Judge durch inhärente Verzerrungen, oberflächliches Einzel-Durchgangs-Denken und die Unfähigkeit, Bewertungen anhand realer Beobachtungen zu überprüfen, eingeschränkt. Dies hat den Übergang zu Agent-as-a-Judge beschleunigt, bei dem agentenbasierte Bewertungssysteme Planung, werkzeuggestützte Verifikation, Multi-Agenten-Kollaboration und persistente Speicherung nutzen, um robustere, überprüfbarere und nuanciertere Evaluationen zu ermöglichen. Trotz der raschen Verbreitung agentenbasierter Bewertungssysteme fehlt dem Feld ein einheitlicher Rahmen, um diesen Wandel zu navigieren. Um diese Lücke zu schließen, präsentieren wir die erste umfassende Übersichtsarbeit, die diese Entwicklung nachzeichnet. Konkret identifizieren wir Schlüsseldimensionen, die diesen Paradigmenwechsel kennzeichnen, und entwickeln eine Entwicklungstaxonomie. Wir systematisieren die Kernmethoden und untersuchen Anwendungen in allgemeinen und professionellen Domänen. Darüber hinaus analysieren wir aktuelle Herausforderungen und zeigen vielversprechende Forschungsrichtungen auf, um letztendlich eine klare Roadmap für die nächste Generation agentenbasierter Evaluation zu liefern.
Kameragesteuerte generative Video-Neurendering-Methoden wie ReCamMaster haben bemerkenswerte Fortschritte erzielt. Trotz ihrer Erfolge in Einzelansicht-Szenarien haben diese Arbeiten jedoch oft Schwierigkeiten, Konsistenz über Multi-View-Szenarien hinweg aufrechtzuerhalten. Die Gewährleistung von raumzeitlicher Kohärenz in halluzinierten Bereichen bleibt aufgrund der inhärenten Stochastik generativer Modelle eine Herausforderung. Um dieses Problem zu adressieren, stellen wir PlenopticDreamer vor, ein Framework, das generative Halluzinationen synchronisiert, um ein raumzeitliches Gedächtnis zu erhalten. Der Kernansatz besteht darin, ein Multi-In-Single-Out, videokonditioniertes Modell auf autoregressive Weise zu trainieren, unterstützt durch eine kamerageführte Video-Retrieval-Strategie, die adaptiv saliente Videos aus vorherigen Generationen als konditionelle Eingaben auswählt. Zusätzlich integriert unser Training progressives Context-Scaling zur Verbesserung der Konvergenz, Self-Conditioning zur Erhöhung der Robustheit gegenüber langreichweitiger visueller Verschlechterung durch Fehlerakkumulation und einen Long-Video-Conditioning-Mechanismus zur Unterstützung erweiterter Videogenerierung. Umfangreiche Experimente auf den Benchmarks Basic und Agibot demonstrieren, dass PlenopticDreamer state-of-the-art Video-Neurendering erreicht, mit überlegener Viewsynchronisation, hochwertiger Visualqualität, präziser Kamerasteuerung und diversen View-Transformationen (z.B. Third-Person zu Third-Person und Head-View zu Gripper-View in der Robotermanipulation). Projektseite: https://research.nvidia.com/labs/dir/plenopticdreamer/
Embodied Question Answering (EQA) in 3D-Umgebungen erfordert häufig das Erfassen von Kontext, der über mehrere Blickwinkel verteilt und teilweise verdeckt ist. Die meisten aktuellen Vision-Language-Modelle (VLMs) sind jedoch auf eine feste und endliche Menge von Eingabeansichten beschränkt, was ihre Fähigkeit einschränkt, zur Inferenzzeit fragerelevanten Kontext zu erfassen, und komplexes räumliches Denken behindert. Wir schlagen Chain-of-View (CoV) Prompting vor, ein trainingsfreies Reasoning-Framework zur Testzeit, das ein VLM durch einen grob- bis feingranularen Explorationsprozess in einen aktiven Blickpunkt-Reasoner verwandelt. CoV setzt zunächst einen View Selection-Agenten ein, um redundante Frames herauszufiltern und fragespezifische Ankeransichten zu identifizieren. Anschließend führt es eine feingranulare Ansichtsanpassung durch, indem es iteratives Reasoning mit diskreten Kamerabewegungen verschachtelt, um neue Beobachtungen aus der zugrundeliegenden 3D-Szenendarstellung zu erhalten, bis ausreichend Kontext gesammelt ist oder ein Schrittbudget erschöpft ist. Wir evaluieren CoV auf OpenEQA mit vier gängigen VLMs und erzielen eine durchschnittliche Verbesserung von +11,56 % im LLM-Match, mit einem maximalen Zuwachs von +13,62 % bei Qwen3-VL-Flash. CoV zeigt weiterhin Skalierung zur Testzeit: Eine Erhöhung des minimalen Aktionsbudgets führt zu einer zusätzlichen durchschnittlichen Verbesserung von +2,51 %, die bei Gemini-2.5-Flash mit +3,73 % ihren Höhepunkt erreicht. Auf ScanQA und SQA3D liefert CoV eine starke Leistung (z. B. 116 CIDEr / 31,9 EM@1 auf ScanQA und 51,1 EM@1 auf SQA3D). Insgesamt deuten diese Ergebnisse darauf hin, dass eine fragespezifische Ansichtsauswahl in Kombination mit einer offenen Ansichtssuche eine effektive, modellagnostische Strategie zur Verbesserung des räumlichen Denkens in 3D-EQA ohne zusätzliches Training ist.
Chain-of-Thought (CoT)-Reasoning verbessert die schrittweise Lösung mathematischer Probleme in großen Sprachmodellen, bleibt jedoch anfällig für Exposure Bias und Fehlerakkumulation, da sich frühe Fehler während des autoregressiven Decodierens irreversibel fortsetzen. In dieser Arbeit schlagen wir DiffCoT vor, ein CoT-Framework im Stil von Diffusionsmodellen, das CoT-Reasoning als iterativen Entrauschungsprozess reformuliert. DiffCoT integriert Diffusionsprinzipien auf Ebene der Reasoning-Schritte über einen Sliding-Window-Mechanismus, wodurch eine einheitliche Generierung und nachträgliche Korrektur von Zwischenschritten bei Beibehaltung der Token-level-Autoregression ermöglicht wird. Um kausale Konsistenz zu gewährleisten, führen wir außerdem einen kausalen Diffusions-Rauschplan ein, der die zeitliche Struktur von Reasoning-Ketten berücksichtigt. Umfangreiche Experimente auf drei Benchmarks für mehrstufiges CoT-Reasoning mit verschiedenen Modellarchitekturen zeigen, dass DiffCoT bestehende CoT-Preferenzoptimierungsmethoden durchgängig übertrifft und eine verbesserte Robustheit sowie Fehlerkorrekturfähigkeit im CoT-Reasoning erzielt.
Dokumenten-Fragebeantwortung (DocQA) konzentriert sich darauf, Fragen anhand gegebener Dokumente zu beantworten, doch bestehenden DocQA-Agenten mangelt es an effektiver Werkzeugnutzung und sie stützen sich weitgehend auf Closed-Source-Modelle. In dieser Arbeit stellen wir DocDancer vor, einen end-to-end trainierten Open-Source-Dokumentenagenten. Wir formulieren DocQA als informationsbeschaffendes Problem und schlagen einen werkzeuggesteuerten Agentenrahmen vor, der die Dokumentenexploration und -verständnis explizit modelliert. Um ein End-to-End-Training solcher Agenten zu ermöglichen, führen wir eine Exploration-then-Synthesis-Datensynthese-Pipeline ein, die die Knappheit an hochwertigen Trainingsdaten für DocQA adressiert. Das Training anhand der synthetisierten Daten zeigt die Effektivität der trainierten Modelle in zwei Benchmarks für das Verständnis langer Dokumentkontexte, MMLongBench-Doc und DocBench. Eine weiterführende Analyse liefert wertvolle Erkenntnisse für das agentenbasierte Werkzeugdesign und synthetische Daten.
Kontextbezogene Bildgenerierung und -bearbeitung (ICGE) ermöglicht es Nutzern, visuelle Konzepte durch verschachtelte Bild-Text-Eingaben zu spezifizieren, was ein präzises Verständnis und eine treue Ausführung der Nutzerabsicht erfordert. Obwohl neuere vereinheitlichte multimodale Modelle vielversprechende Verständnisfähigkeiten zeigen, übertragen sich diese Stärken oft nicht effektiv auf die Bildgenerierung. Wir stellen Re-Align vor, einen vereinheitlichten Rahmen, der die Lücke zwischen Verständnis und Generierung durch strukturierte, reasoning-gesteuerte Ausrichtung überbrückt. Sein Kernstück ist das In-Context Chain-of-Thought (IC-CoT), ein strukturiertes Reasoning-Paradigma, das semantische Führung und Referenzassoziation entkoppelt, um ein klares textuelles Ziel bereitzustellen und Verwirrung zwischen Referenzbildern zu vermindern. Darüber hinaus führt Re-Align ein effektives RL-Trainingsschema ein, das einen Surrogate-Reward nutzt, um die Übereinstimmung zwischen strukturiertem Reasoning-Text und dem generierten Bild zu messen und so die Gesamtleistung des Modells bei ICGE-Aufgaben zu verbessern. Umfangreiche Experimente bestätigen, dass Re-Align konkurrenzfähige Methoden mit vergleichbarer Modellgröße und Ressourcen sowohl bei kontextbezogenen Bildgenerierungs- als auch bei Bearbeitungsaufgaben übertrifft.
Generative Modelle werden zunehmend in der 3D-Vision eingesetzt, um neue Formen zu synthetisieren, doch es ist nach wie vor unklar, ob ihre Generierung auf dem Auswendiglernen von Trainingsformen beruht. Das Verständnis dieser Memorisierung könnte dazu beitragen, das Auslaufen von Trainingsdaten zu verhindern und die Vielfalt der generierten Ergebnisse zu verbessern. In diesem Artikel entwerfen wir ein Bewertungsframework, um die Memorisierung in 3D-generativen Modellen zu quantifizieren, und untersuchen den Einfluss verschiedener Daten- und Modellierungsansätze auf die Memorisierung. Wir wenden unser Framework zunächst an, um die Memorisierung in bestehenden Methoden zu quantifizieren. Anschließend stellen wir in kontrollierten Experimenten mit einem Diffusion-Modell auf Basis latenter Vektorsätze (Vecset) fest, dass auf der Datenseite die Memorisierung von der Datenmodalität abhängt und mit zunehmender Datenvielfalt und feinerer Konditionierung ansteigt; auf der Modellierungsseite erreicht sie bei einer moderaten Führungsgröße ihren Höhepunkt und kann durch längere Vecsets und einfache Rotationsdatenaugmentierung gemindert werden. Unser Framework und unsere Analyse bieten zusammen ein empirisches Verständnis der Memorisierung in 3D-generativen Modellen und schlagen einfache, aber effektive Strategien vor, um sie zu reduzieren, ohne die Generierungsqualität zu beeinträchtigen. Unser Code ist verfügbar unter https://github.com/zlab-princeton/3d_mem.
Weiche Grenzen, wie etwa dünne Haare, sind in natürlichen und computergenerierten Bildern häufig anzutreffen, stellen jedoch aufgrund der mehrdeutigen Vermischung von Vorder- und Hintergrundinformationen nach wie vor eine Herausforderung für das 3D-Sehen dar. Dieses Papier stellt Guardians of the Hair (HairGuard) vor, ein Framework, das entwickelt wurde, um fein granulierte Details weicher Grenzen in 3D-Sehaufgaben wiederherzustellen. Konkret schlagen wir zunächst eine neuartige Datenkuratierungspipeline vor, die Bildfreistellungsdatensätze für das Training nutzt, und entwerfen ein Netzwerk zur Tiefenkorrektur, das automatisch Regionen mit weichen Grenzen identifiziert. Mit einem gated residual module verfeinert der Tiefenkorrektor die Tiefe präzise im Bereich weicher Grenzen, während die globale Tiefenqualität erhalten bleibt, was eine Plug-and-Play-Integration in state-of-the-art Tiefenmodelle ermöglicht. Für die View-Synthese führen wir eine tiefenbasierte Vorwärtsabbildung durch, um hochauflösende Texturen zu erhalten, gefolgt von einem generativen Szene-Painter, der disokkludierte Regionen füllt und redundante Hintergrundartefakte innerhalb weicher Grenzen entfernt. Abschließend kombiniert ein Color-Fuser die verzerrten und eingefärbten Ergebnisse adaptiv, um neue Ansichten mit konsistenter Geometrie und fein granulierten Details zu erzeugen. Umfangreiche Experimente belegen, dass HairGuard state-of-the-art Leistungen in den Bereichen monokulare Tiefenschätzung, Stereo-Bild-/Videokonvertierung und View-Synthese erzielt, mit signifikanten Verbesserungen in Regionen mit weichen Grenzen.
Die Fähigkeit zum logischen Denken großer Sprachmodelle (LLMs) kann durch Reinforcement Learning (RL) freigesetzt werden (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Der Erfolg bestehender RL-Versuche bei LLMs beruht in der Regel auf hochwertigen Stichproben im Umfang von Tausenden oder mehr. In diesem Papier stellen wir grundlegende Annahmen zu den Datenanforderungen von RL für LLMs in Frage, indem wir die bemerkenswerte Wirksamkeit von One-Shot-Lernen demonstrieren. Konkret führen wir das Polymath-Lernen ein, einen Rahmen zur Gestaltung einer einzigen Trainingsstichprobe, die multidisziplinäre Wirkung entfaltet. Wir präsentieren drei zentrale Erkenntnisse: (1) Eine einzige, strategisch ausgewählte Stichprobe aus dem Bereich des mathematischen Denkens kann signifikante Leistungsverbesserungen in mehreren Domänen, einschließlich Physik, Chemie und Biologie, mittels RL bewirken; (2) Die für das Denken wesentlichen mathematischen Fähigkeiten deuten auf die Eigenschaften der optimalen Polymath-Stichprobe hin; und (3) Eine konstruierte synthetische Stichprobe, die multidisziplinäre Elemente integriert, übertrifft das Training mit einzelnen, natürlich vorkommenden Stichproben. Unser Ansatz erzielt eine höhere Leistung als das Training mit größeren Datensätzen in verschiedenen Reasoning-Benchmarks und zeigt, dass Stichprobenqualität und -design, eher als Quantität, der Schlüssel zur Entfaltung verbesserter Denkfähigkeiten in Sprachmodellen sein könnten. Unsere Ergebnisse deuten auf einen Wandel hin, den wir als Stichproben-Engineering bezeichnen, hin zur präzisen Gestaltung von Trainingsstichproben anstatt zur schlichten Erhöhung des Datenvolumens.
Wir präsentieren ProFuse, einen effizienten kontextbewussten Rahmen für das open-vocabulary 3D-Szenenverständnis mit 3D Gaussian Splatting (3DGS). Die Pipeline verbessert die konsistente Darstellung über verschiedene Blickwinkel hinweg und die Kohäsion innerhalb von Masken in einem direkten Registrierungsaufbau, bei nur minimalem Mehraufwand und ohne Notwendigkeit einer renderüberwachten Feinabstimmung. Anstatt auf eine vortrainierte 3DGS-Szene angewiesen zu sein, führen wir eine dichte, korrespondenzgeführte Vorregistrierungsphase ein, die Gauss-Objekte mit präziser Geometrie initialisiert und gleichzeitig 3D-Kontextvorschläge durch clusterübergreifende Gruppierung erstellt. Jeder Vorschlag enthält einen globalen Merkmalsvektor, der durch gewichtete Aggregation der Einzelmerkmale seiner Mitglieder gewonnen wird. Dieses Merkmal wird während der direkten Registrierung mit den Gauss-Objekten fusioniert, um eine sprachlich kohärente Darstellung pro Primitiv über alle Blickwinkel hinweg beizubehalten. Da die Zuordnungen im Voraus festgelegt werden, erfordert die semantische Fusion keine zusätzliche Optimierung jenseits der Standardrekonstruktion, und das Modell behält die geometrische Verfeinerung ohne Verdichtung bei. ProFuse erreicht ein robustes open-vocabulary 3DGS-Verständnis und vollendet die semantische Anbindung in etwa fünf Minuten pro Szene, was doppelt so schnell ist wie der aktuelle Stand der Technik.
Autoregressive (AR) Modelle haben bemerkenswerte Erfolge in der Bildsynthese erzielt, doch ihre sequenzielle Natur führt zu erheblichen Latenzeinschränkungen. Speculative Decoding bietet einen vielversprechenden Ansatz zur Beschleunigung, aber bestehende Methoden werden durch Token-basierte Mehrdeutigkeit und mangelndes räumliches Bewusstsein eingeschränkt. In dieser Arbeit stellen wir Multi-Scale Local Speculative Decoding (MuLo-SD) vor, einen neuartigen Rahmen, der Multi-Resolution-Drafting mit räumlich informierter Verifikation kombiniert, um die AR-Bildgenerierung zu beschleunigen. Unser Verfahren nutzt einen Low-Resolution-Drafter in Kombination mit gelernten Upsamplern, um Kandidaten-Bildtokens vorzuschlagen, die dann parallel von einem High-Resolution-Zielmodell verifiziert werden. Entscheidend ist, dass wir einen Mechanismus zur lokalen Zurückweisung und Neusammlung integrieren, der eine effiziente Korrektur von Draft-Fehlern ermöglicht, indem er sich auf räumliche Nachbarschaften konzentriert, anstatt nach der ersten Zurückweisung eine Raster-Scan-Neusammlung durchzuführen. Wir zeigen, dass MuLo-SD erhebliche Beschleunigungen – bis zu 1,7-fach – erreicht und dabei starke Speculative-Decoding-Baselines wie EAGLE-2 und LANTERN in Bezug auf die Beschleunigung übertrifft, während eine vergleichbare semantische Übereinstimmung und perzeptuelle Qualität erhalten bleibt. Diese Ergebnisse wurden mit GenEval, DPG-Bench und FID/HPSv2 auf dem MS-COCO-5k-Validierungssplit validiert. Umfangreiche Ablationstudien unterstreichen die Auswirkungen des Upsampling-Designs, der Probability-Pooling-Strategie sowie der lokalen Zurückweisung und Neusammlung mit Nachbarschaftserweiterung. Unser Ansatz setzt einen neuen Maßstab im State-of-the-Art für Speculative Decoding in der Bildsynthese und überbrückt die Lücke zwischen Effizienz und Wiedergabetreue.
Jüngste Fortschritte bei Agenten auf Basis großer Sprachmodelle (LLM) konzentrierten sich weitgehend darauf, Selbstverbesserungsmechanismen innerhalb des Agenten zu integrieren oder viele parallele Varianten zu durchsuchen. Obwohl diese Ansätze die Gesamtleistungswerte steigern können, führen sie oft zu instabilen und schwer nachvollziehbaren Verbesserungspfaden, was die Gewährleistung von Nicht-Regression oder die Analyse von Fehlern über Versionen hinweg erschwert. Wir formulieren die Agentenverbesserung als Release-Engineering neu: Agenten werden als auslieferbare Artefakte betrachtet, und die Verbesserung wird in eine regressionsbewusste Release-Pipeline externalisiert. Wir stellen AgentDevel vor, eine Release-Engineering-Pipeline, die iterativ den aktuellen Agenten ausführt, implementierungsblinde, symptombezogene Qualitätssignale aus Ausführungsspuren erzeugt, einen einzigen Release-Kandidaten (RC) durch ausführbare Diagnose synthetisiert und diesen unter flip-zentrierter Freigabesteuerung promoted. AgentDevel zeichnet sich durch drei Kerndesigns aus: (i) einen implementierungsblinden LLM-Kritiker, der Fehlererscheinungen charakterisiert, ohne auf die Interna des Agenten zuzugreifen, (ii) skriptbasierte, ausführbare Diagnose, die dominante Symptommuster aggregiert und nachvollziehbare Engineering-Spezifikationen erzeugt, und (iii) flip-zentrierte Freigabesteuerung, die Pass-zu-Fail-Regressionen und Fail-zu-Pass-Korrekturen als erstklassige Evidenz priorisiert. Im Gegensatz zu populationsbasierten Suchverfahren oder agenteninterner Selbstverbesserung pflegt AgentDevel eine einzige kanonische Versionslinie und betont Nicht-Regression als primäres Ziel. Experimente mit ausführungsintensiven Benchmarks zeigen, dass AgentDevel stabile Verbesserungen mit deutlich weniger Regressionen erzielt und dabei reproduzierbare, überprüfbare Artefakte produziert. Insgesamt bietet AgentDevel eine praktische Entwicklungsdisziplin zum Bauen, Debuggen und Ausliefern von LLM-Agenten als Softwareentwicklung.
Behavior Cloning erlebt derzeit eine Wiederbelebung, da sich herausstellt, dass die Skalierung von Modell- und Datenmengen einen starken Ausgangspunkt für viele interessante Aufgaben bietet. In dieser Arbeit stellen wir ein offenes Rezept für das Training eines Foundation-Modells zum Spielen von Videospielen vor, das für Echtzeit-Inferenz auf einer Consumer-GPU konzipiert ist. Wir veröffentlichen alle Daten (über 8300 Stunden hochwertiger menschlicher Spielaufnahmen), Trainings- und Inferenzcode sowie vortrainierte Checkpoints unter einer offenen Lizenz. Wir zeigen, dass unser bestes Modell in der Lage ist, eine Vielzahl von 3D-Videospielen auf einem mit menschlichem Spiel vergleichbaren Niveau zu spielen. Wir nutzen dieses Rezept, um die Skalierungsgesetze von Behavior Cloning systematisch zu untersuchen und zu verstehen, wie sich die Leistung und das kausale Schlussfolgern des Modells mit der Modell- und Datengröße verändern. Zunächst demonstrieren wir an einem einfachen Toy-Problem, dass für bestimmte Arten von kausalem Reasoning eine Erhöhung der Trainingsdatenmenge und der Netzwerktiefe dazu führt, dass das Modell eine kausalere Policy erlernt. Anschließend untersuchen wir systematisch, wie sich die Kausalität mit der Anzahl der Parameter (und der Tiefe) und den Trainingsschritten in skalierten Modellen mit bis zu 1,2 Milliarden Parametern verhält, und wir finden ähnliche Skalierungsergebnisse wie im Toy-Problem.
Jüngste Fortschritte bei Video-Diffusionsmodellen haben sich hin zu transformerbasierten Architekturen verschoben, die state-of-the-art Videoerzeugung erreichen, jedoch auf Kosten quadratischer Attention-Komplexität, was die Skalierbarkeit für längere Sequenzen stark einschränkt. Wir stellen ReHyAt vor, einen rekurrenten hybriden Attention-Mechanismus, der die Präzision von Softmax-Attention mit der Effizienz von linearer Attention kombiniert und eine chunkweise rekursive Reformulierung sowie konstanten Speicherverbrauch ermöglicht. Im Gegensatz zum zeitgleich entwickelten, rein linearen SANA Video erlaubt das hybride Design von ReHyAt eine effiziente Distillation von bestehenden Softmax-basierten Modellen, was die Trainingskosten um zwei Größenordnungen auf ~160 GPU-Stunden reduziert, bei gleichzeitig konkurrenzfähiger Qualität. Unsere leichtgewichtige Distillations- und Feinabstimmungs-Pipeline bietet ein Rezept, das auf zukünftige bidirektionale Softmax-basierte State-of-the-Art-Modelle anwendbar ist. Experimente mit VBench und VBench-2.0 sowie eine Human-Preference-Studie zeigen, dass ReHyAt state-of-the-art Videoqualität erreicht und dabei die Attention-Kosten von quadratisch auf linear reduziert, was praktische Skalierbarkeit für langandauernde und on-device Videoerzeugung ermöglicht. Die Projektseite ist verfügbar unter https://qualcomm-ai-research.github.io/rehyat.
Diese Arbeit untersucht die Integration des Paradigmas "Learning Using Privileged Information" (LUPI) in die Objekterkennung, um feingranulare, beschreibende Informationen zu nutzen, die während des Trainings, jedoch nicht während des Inferenzzeitpunkts verfügbar sind. Wir stellen eine allgemeine, modellagnostische Methodik vor, um privilegierte Informationen – wie Bounding-Box-Masken, Saliency Maps und Tiefeninformationen – über eine Teacher-Student-Architektur in tiefenlernbasierte Objektdetektoren zu injizieren. Experimente werden mit fünf state-of-the-art Objekterkennungsmodellen und mehreren öffentlichen Benchmarks, einschließlich UAV-basierter Litter-Detektion-Datensätzen und Pascal VOC 2012, durchgeführt, um die Auswirkungen auf Genauigkeit, Generalisierungsfähigkeit und Recheneffizienz zu bewerten. Unsere Ergebnisse zeigen, dass nach dem LUPI-Paradigma trainierte Studentenmodelle ihre Baseline-Pendants konsistent übertreffen und signifikante Steigerungen der Detektionsgenauigkeit ohne Erhöhung der Inferenzkomplexität oder Modellgröße erzielen. Die Leistungsverbesserungen sind besonders ausgeprägt für mittlere und große Objekte, während Ablationsstudien zeigen, dass eine intermediate Gewichtung der Teacher-Anleitung das Lernen aus privilegierten und standardmäßigen Eingaben optimal ausbalanciert. Die Ergebnisse bestätigen, dass der LUPI-Rahmen eine effektive und praktische Strategie zur Weiterentwicklung von Objekterkennungssystemen sowohl in ressourcenbeschränkten als auch in realen Anwendungsszenarien bietet.
Die Nachjustierung (Alignment) von Diffusionsmodellen nach dem Training stützt sich auf vereinfachte Signale, wie skalare Belohnungen oder binäre Präferenzen. Dies schränkt die Abstimmung mit komplexer menschlicher Expertise ein, die hierarchisch und feinkörnig ist. Um dieses Problem zu adressieren, entwickeln wir zunächst mit Domänenexperten ein hierarchisches, feinkörniges Bewertungskriterium, das die Bildqualität in mehrere positive und negative Attribute zerlegt, die in einer Baumstruktur organisiert sind. Darauf aufbauend schlagen wir ein zweistufiges Alignment-Framework vor. Zunächst injizieren wir Domänenwissen in ein auxiliares Diffusionsmodell via Supervised Fine-Tuning. Zweitens führen wir Complex Preference Optimization (CPO) ein, das DPO erweitert, um das Ziel-Diffusionsmodell an unsere nicht-binären, hierarchischen Kriterien anzupassen. Konkret reformulieren wir das Alignment-Problem so, dass gleichzeitig die Wahrscheinlichkeit positiver Attribute maximiert und die Wahrscheinlichkeit negativer Attribute mit Hilfe des auxiliaren Diffusionsmodells minimiert wird. Wir implementieren unseren Ansatz im Bereich der Malerei-Generierung und führen ein CPO-Training mit einem annotierten Datensatz von Gemälden durch, der auf unseren Kriterien basierende feinkörnige Attribute enthält. Umfangreiche Experimente zeigen, dass CPO die Generierungsqualität und die Abstimmung mit der Expertise signifikant verbessert und neue Wege für die Abstimmung anhand feinkörniger Kriterien eröffnet.
Kürzlich vorgeschlagene pyramidale Modelle zerlegen die konventionellen Vorwärts- und Rückwärts-Diffusionsprozesse in mehrere Stufen, die mit unterschiedlichen Auflösungen arbeiten. Diese Modelle verarbeiten Eingaben mit höheren Rauschpegeln bei niedrigeren Auflösungen, während weniger verrauschte Eingaben bei höheren Auflösungen bearbeitet werden. Dieser hierarchische Ansatz reduziert den Rechenaufwand für den Inferenzvorgang in mehrstufigen Entrauschungsmodellen erheblich. Allerdings wurden bestehende quelloffene pyramidale Videomodelle von Grund auf trainiert und schneiden im Vergleich zu state-of-the-art-Systemen in Bezug auf die visuelle Plausibilität tendenziell schwächer ab. In dieser Arbeit stellen wir eine Pipeline vor, die ein vortrainiertes Diffusionsmodell durch kostengünstiges Finetuning in ein pyramidales Modell überführt und diese Transformation ohne Qualitätseinbußen bei den Ausgangsvideos erreicht. Darüber hinaus untersuchen und vergleichen wir verschiedene Strategien zur Schritt-Distillation innerhalb pyramidaler Modelle, um die Inferenzeffizienz weiter zu steigern. Unsere Ergebnisse sind verfügbar unter https://qualcomm-ai-research.github.io/PyramidalWan.
Wir stellen IMDD-1M vor, den ersten groß angelegten industriellen multimodalen Defektdatensatz mit 1.000.000 ausgerichteten Bild-Text-Paaren, der entwickelt wurde, um multimodales Lernen für Fertigung und Qualitätskontrolle voranzutreiben. IMDD-1M enthält hochauflösende reale Defekte aus über 60 Materialkategorien und mehr als 400 Defekttypen, jeweils ergänzt durch expertengeprüfte Annotationen und detaillierte textuelle Beschreibungen zu Defektposition, Schweregrad und kontextuellen Attributen. Dieser Datensatz ermöglicht ein breites Anwendungsspektrum, einschließlich Klassifizierung, Segmentierung, Retrieval, Bildbeschreibung und generativer Modellierung. Aufbauend auf IMDD-1M trainieren wir ein diffusionsbasiertes Vision-Language-Foundation-Modell von Grund auf, das speziell für industrielle Szenarien ausgelegt ist. Das Modell dient als generalisierbare Basis, die durch leichtgewichtiges Fine-Tuning effizient an spezielle Domänen angepasst werden kann. Mit weniger als 5 % der aufgabenspezifischen Daten, die dedizierte Expertenmodelle benötigen, erreicht es vergleichbare Leistung, was das Potenzial der dateneffizienten Foundation-Modell-Adaption für industrielle Inspektion und Generierung unterstreicht und den Weg für skalierbare, domänenadaptive und wissensbasierte Fertigungsintelligenz ebnet.
Diese Arbeit stellt VERSE vor, eine Methodik zur Analyse und Verbesserung von Vision-Language-Modellen im Bereich des Verstehens visuell reicher Dokumente durch die Erforschung ihres visuellen Einbettungsraums. VERSE ermöglicht die Visualisierung latenter Repräsentationen und unterstützt so die Bewertung der Modelltauglichkeit. Es erleichtert zudem die Identifikation problematischer Regionen und leitet die Generierung synthetischer Daten an, um die Leistung in diesen Clustern zu verbessern. Wir validieren die Methodik, indem wir mit dem synthetischen MERIT-Datensatz trainieren und auf seinem realen Pendant, MERIT Secret, evaluieren. Die Ergebnisse zeigen, dass VERSE hilft, die visuellen Merkmale aufzudecken, die mit fehleranfälligen Clustern assoziiert sind, und dass ein Retraining mit Stichproben, die diese Merkmale enthalten, die F1-Leistung erheblich steigert, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Darüber hinaus demonstrieren wir, dass On-Premise-Modelle wie Donut und Idefics2, wenn sie mit VERSE optimiert werden, die Leistung von SaaS-Lösungen wie GPT-4 und Pixtral erreichen oder sogar übertreffen.
Da Konversationsagenten zunehmend Erfahrung in der Zusammenarbeit mit Nutzern sammeln, ist die Anpassung an Nutzerpräferenzen entscheidend, um langfristige Beziehungen zu fördern und die Qualität der Zusammenarbeit kontinuierlich zu verbessern. Wir stellen MultiSessionCollab vor, einen Benchmark, der bewertet, wie gut Agenten Nutzerpräferenzen erlernen und nutzen können, um die Zusammenarbeit über mehrere Sitzungen hinweg zu verbessern. Um erfolgreiche Agenten für dieses Szenario zu entwickeln, präsentieren wir langfristig kollaborative Agenten, die mit einem Gedächtnis ausgestattet sind, das Nutzerpräferenzen persistent speichert und mit zunehmender Interaktionserfahrung verfeinert. Des Weiteren zeigen wir, dass aus dem Verhalten von Nutzersimulationen in MultiSessionCollab Lernsignale abgeleitet werden können, um Agenten zu trainieren, umfassendere Reflexionen zu generieren und ihr Gedächtnis effektiver zu aktualisieren. Umfangreiche Experimente belegen, dass die Ausstattung von Agenten mit Gedächtnis die langfristige Zusammenarbeit verbessert, was zu höheren Aufgaben-Erfolgsraten, effizienteren Interaktionen und reduziertem Nutzungsaufwand führt. Abschließend führen wir eine Nutzerstudie durch, die zeigt, dass Gedächtnisfunktionen die Nutzererfahrung in realen Anwendungsszenarien verbessern.
Das Feinabstimmen von sicherheitsausgerichteten großen Sprachmodellen (LLMs) kann deren Sicherheit erheblich beeinträchtigen. Bisherige Ansätze erfordern viele Sicherheitsbeispiele oder Kalibrierungsdatensätze, was nicht nur erheblichen Rechenaufwand während der Neuausrichtung verursacht, sondern auch zu einer spürbaren Verschlechterung der Modellnutzbarkeit führt. Im Gegensatz zu dieser Annahme zeigen wir, dass die Sicherheitsausrichtung mit nur einem einzigen Sicherheitsbeispiel vollständig wiederhergestellt werden kann – ohne Nutzungseinbußen und mit minimalem Aufwand. Bemerkenswerterweise ist diese Wiederherstellung unabhängig von der Anzahl der beim Fine-Tuning verwendeten schädlichen Beispiele oder der Größe des zugrundeliegenden Modells wirksam, und die Konvergenz wird innerhalb weniger Epochen erreicht. Darüber hinaus decken wir die Niedrigrang-Struktur des Sicherheitsgradienten auf, was erklärt, warum eine so effiziente Korrektur möglich ist. Wir validieren unsere Erkenntnisse an fünf sicherheitsausgerichteten LLMs und mehreren Datensätzen, was die Allgemeingültigkeit unseres Ansatzes demonstriert.
Wir stellen das LEMAS-Dataset vor, das unseres Wissens nach derzeit der größte Open-Source-Multilingual-Sprachkorpus mit wortbezogenen Zeitstempeln ist. Mit über 150.000 Stunden in 10 Hauptsprachen wurde das LEMAS-Dataset durch eine effiziente Datenverarbeitungspipeline erstellt, die hochwertige Daten und Annotationen gewährleistet. Um die Wirksamkeit des LEMAS-Datasets über verschiedene generative Paradigmen hinweg zu validieren, trainieren wir zwei Benchmark-Modelle mit unterschiedlichen Architekturen und Aufgabenstellungen auf diesem Datensatz. LEMAS-TTS, basierend auf einem nicht-autoregressiven Flow-Matching-Framework, nutzt den massiven Umfang und die linguistische Vielfalt des Datensatzes, um eine robuste Zero-Shot-Multilingual-Synthese zu erreichen. Unser vorgeschlagenes akzentadversariales Training und CTC-Loss mildern akzentübergreifende Probleme und verbessern die Synthesestabilität. Ergänzend dazu verwendet LEMAS-Edit eine autoregressive, nur-Decoder-Architektur, die Sprachbearbeitung als Masked-Token-Infilling-Aufgabe formuliert. Durch die Nutzung präziser wortbezogener Ausrichtungen zur Konstruktion von Trainingsmasken und die Anwendung adaptiver Decodierungsstrategien erreicht es nahtlose Sprachbearbeitung mit glatten Übergängen und natürlichen Grenzen. Experimentelle Ergebnisse zeigen, dass auf dem LEMAS-Dataset trainierte Modelle eine hochwertige Synthese- und Bearbeitungsleistung erbringen, was die Qualität des Datensatzes bestätigt. Wir gehen davon aus, dass dieser reichhaltig zeitstempelannotierte, feingranuläre multilinguale Korpus zukünftige Fortschritte in promptbasierten Sprachgenerierungssystemen vorantreiben wird.