HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

18 papers found

VESPO: Variationale Sequenzebenen-Soft-Policy-Optimierung für stabiles Off-Policy-Training von LLMs
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

Die Trainingsstabilität bleibt eine zentrale Herausforderung beim Reinforcement Learning (RL) für große Sprachmodelle (LLMs). Politiklatenz, asynchrones Training und Diskrepanzen zwischen Trainings- und Inferenz-Engines führen dazu, dass sich die Verhaltenspolitik von der aktuellen Politik entfernt, was das Risiko eines Trainingszusammenbruchs birgt. Importance Sampling bietet eine prinzipielle Korrektur für diese Verteilungsverschiebung, leidet jedoch unter hoher Varianz; bestehende Abhilfemaßnahmen wie Token-Level-Clipping und Sequenzlevel-Normalisierung entbehren einer einheitlichen theoretischen Grundlage. Wir schlagen Variational sEquence-level Soft Policy Optimization (VESPO) vor. Durch die Integration von Varianzreduktion in eine variationsbasierte Formulierung über Vorschlagsverteilungen leitet VESPO einen geschlossenen Umformungskernel ab, der direkt auf Sequenzlevel-Importance-Weights ohne Längennormalisierung operiert. Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass VESPO unter Latenzverhältnissen von bis zu 64x und vollständig asynchroner Ausführung ein stabiles Training aufrechterhält und konsistente Verbesserungen sowohl bei dichten Modellen als auch bei Mixture-of-Experts-Modellen erzielt. Code ist verfügbar unter https://github.com/FloyedShen/VESPO.

Weiß Ihr Denkmodell implizit, wann es mit dem Denken aufhören muss?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben deren Fähigkeiten bei komplexen Reasoning-Aufgaben durch lange Denkketten (Chains of Thought, CoTs) erheblich verbessert. Dieser Ansatz führt jedoch oft zu erheblicher Redundanz, beeinträchtigt die Recheneffizienz und verursacht signifikante Verzögerungen in Echtzeitanwendungen. Jüngste Studien zeigen, dass längere Reasoning-Ketten häufig nicht mit der Korrektheit korrelieren und sich sogar nachteilig auf die Genauigkeit auswirken können. In einer tiefergehenden Analyse dieses Phänomens entdecken und verifizieren wir überraschenderweise empirisch, dass LRMs implizit wissen, wann der geeignete Zeitpunkt zum Aufhören des Denkprozesses ist, wobei diese Fähigkeit durch aktuelle Sampling-Paradigmen verdeckt wird. Motiviert durch diese Erkenntnis führen wir SAGE (Self-Aware Guided Efficient Reasoning) ein, ein neuartiges Sampling-Paradigma, das dieses effiziente Reasoning-Potenzial freisetzt. Darüber hinaus ermöglicht die Integration von SAGE als Mixed Sampling in gruppenbasiertes bestärkendes Lernen (SAGE-RL), dass SAGE-RL die durch SAGE entdeckten effizienten Reasoning-Muster effektiv in die Standard-pass@1-Inferenz einbindet, was die Reasoning-Genauigkeit und -Effizienz von LRMs über mehrere anspruchsvolle mathematische Benchmarks hinweg deutlich steigert.

Generierte Realität: Menschzentrierte Weltsimulation mittels interaktiver Videogenerierung mit Hand- und Kamerasteuerung
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

Erweiterte Realität (XR) erfordert generative Modelle, die auf die erfassten Bewegungen von Nutzern in der realen Welt reagieren. Bislang akzeptieren aktuelle Video-Weltmodelle jedoch nur grobe Steuersignale wie Texteingaben oder Tastatureingaben, was ihre Nützlichkeit für verkörperte Interaktionen einschränkt. Wir stellen ein menschenzentriertes Video-Weltmodell vor, das sowohl auf die erfasste Kopfpose als auch auf posenspezifische Handgelenkstellungen konditioniert ist. Zu diesem Zweck bewerten wir bestehende Konditionierungsstrategien für Diffusion-Transformer und schlagen einen effektiven Mechanismus für die 3D-Steuerung von Kopf und Händen vor, der geschickte Hand-Objekt-Interaktionen ermöglicht. Wir trainieren ein bidirektionales Video-Diffusionsmodell als Teacher-Modell unter Verwendung dieser Strategie und destillieren es in ein kausales, interaktives System, das egozentrische virtuelle Umgebungen generiert. Wir evaluieren dieses System für generierte Realität mit menschlichen Probanden und zeigen sowohl eine verbesserte Aufgabenleistung als auch ein signifikant höheres Maß an wahrgenommener Kontrolle über die ausgeführten Aktionen im Vergleich zu relevanten Baseline-Modellen.

Durchspannen des visuellen Analogieraums mit einer gewichteten Basis von LoRAs
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

Visuelles Analogielernen ermöglicht Bildmanipulation durch Demonstration statt textueller Beschreibung, sodass Benutzer komplexe Transformationen spezifizieren können, die sich verbal schwer erfassen lassen. Ausgehend von einem Tripel {a, a', b} besteht das Ziel darin, b' so zu generieren, dass a : a' :: b : b'. Aktuelle Methoden passen Text-zu-Bild-Modelle für diese Aufgabe an, indem sie ein einzelnes Low-Rank-Adaptation (LoRA)-Modul verwenden, stoßen jedoch auf eine grundlegende Einschränkung: Der Versuch, den diversen Raum visueller Transformationen in einem festen Adaptationsmodul zu erfassen, schränkt die Generalisierungsfähigkeiten ein. Inspiriert von aktuellen Arbeiten, die zeigen, dass LoRAs in eingeschränkten Domänen bedeutungsvolle, interpolierbare semantische Räume aufspannen, schlagen wir LoRWeB vor – einen neuartigen Ansatz, der das Modell zur Inferenzzeit für jede Analogieaufgabe durch dynamische Komposition erlernter Transformationsprimitive spezialisiert, informell gesagt durch die Wahl eines Punktes in einem "Raum von LoRAs". Wir führen zwei Schlüsselkomponenten ein: (1) eine lernbare Basis von LoRA-Modulen, um den Raum verschiedener visueller Transformationen aufzuspannen, und (2) einen leichtgewichtigen Encoder, der diese Basis-LoRAs dynamisch basierend auf dem Eingabeanalogiepaar auswählt und gewichtet. Umfassende Evaluationen zeigen, dass unser Ansatz state-of-the-art-Leistung erreicht und die Generalisierung für ungesehene visuelle Transformationen signifikant verbessert. Unsere Ergebnisse legen nahe, dass LoRA-Basiszerlegungen eine vielversprechende Richtung für flexible visuelle Manipulation darstellen. Code und Daten sind unter https://research.nvidia.com/labs/par/lorweb verfügbar.

Dekodierung als Optimierung auf dem Wahrscheinlichkeitssimplex: Von Top-K zu Top-P (Nukleus) zu Best-of-K-Samplern
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

Decoding fungiert als Schnittstelle zwischen einem Sprachmodell und allen darauf aufbauenden Anwendungen, wird jedoch nach wie vor oft als heuristischer Abstimmschritt behandelt. Wir vertreten die Auffassung, dass Decoding als prinzipielle Optimierungsschicht verstanden werden sollte: Bei jedem Token lösen wir ein regularisiertes Problem über dem Wahrscheinlichkeitssimplex, das die Modellbewertung gegen strukturelle Präferenzen und Nebenbedingungen abwägt. Diese einheitliche Vorlage erfasst gieriges Decoding, Softmax-Sampling, Top-K, Top-P und Sparsemax-artige Sparsity als Spezialfälle und erklärt deren gemeinsame Struktur durch Optimalitätsbedingungen. Noch wichtiger ist, dass der Rahmen die Entwicklung neuer Decoder ohne folkloristische Ansätze erleichtert. Wir demonstrieren dies durch die Entwicklung von Best-of-K (BoK), einem KL-verankerten Coverage-Ziel für Multi-Sample-Pipelines (Self-Consistency, Reranking, Verifier-Auswahl). BoK zielt auf die Wahrscheinlichkeit ab, gute Alternativen innerhalb eines festen K-Sample-Budgets abzudecken, und verbessert die empirische Leistung. Wir zeigen, dass solche Stichproben die Genauigkeit beispielsweise um +18,6 % für Qwen2.5-Math-7B auf MATH500 bei hohen Sampling-Temperaturen steigern können.

EgoPush: End-to-End-Lernen von egozentrischer Mehrfachobjekt-Neuanordnung für mobile Roboter
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

Menschen können Objekte in unübersichtlichen Umgebungen mittels egozentrischer Wahrnehmung umordnen und dabei Verdeckungen umgehen, ohne auf globale Koordinaten angewiesen zu sein. Inspiriert von dieser Fähigkeit untersuchen wir langfristige, multi-object, nicht-greifende Umordnungsaufgaben für mobile Roboter unter Verwendung einer einzigen egozentrischen Kamera. Wir stellen EgoPush vor, ein Framework zum Erlernen von Handlungsstrategien, das egozentrische, wahrnehmungsgesteuerte Umordnung ermöglicht, ohne auf explizite globale Zustandsschätzung angewiesen zu sein, die in dynamischen Szenen häufig versagt. EgoPush entwirft einen objektzentrierten latenten Raum, um relative räumliche Beziehungen zwischen Objekten anstelle absoluter Pose-Informationen zu kodieren. Dieser Ansatz ermöglicht es einem privilegierten Reinforcement-Learning (RL)-Lehrmodell, latente Zustände und mobile Aktionen gemeinsam aus spärlichen Keypoints zu erlernen, welche dann in eine rein visuelle Schüler-Strategie destilliert werden. Um die Überwachungslücke zwischen dem allwissenden Lehrer und dem teilweise beobachtenden Schüler zu verringern, beschränken wir die Beobachtungen des Lehrers auf visuell zugängliche Hinweise. Dies induziert aktive Wahrnehmungsverhalten, die aus der Perspektive des Schülers nachvollziehbar sind. Um die langfristige Kreditzuweisung zu adressieren, zerlegen wir die Umordnungsaufgabe in stufenbezogene Teilprobleme unter Verwendung von zeitlich abklingenden, stufenlokalen Abschlussbelohnungen. Umfangreiche Simulationsexperimente zeigen, dass EgoPush End-to-End-RL-Baselines in der Erfolgsquote signifikant übertrifft, wobei Ablationsstudien jede Designentscheidung validieren. Wir demonstrieren weiterhin null-shot Sim-to-Real-Transfer auf einer mobilen Plattform in der realen Welt. Code und Videos sind verfügbar unter https://ai4ce.github.io/EgoPush/.

SARAH: Räumlich Bewusste Echtzeit-Agenten-Menschen
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

Da verkörperte Agenten zunehmend zentral für VR, Telepräsenz und digitale Mensch-Anwendungen werden, muss ihre Bewegung über sprachsynchronisierte Gesten hinausgehen: Agenten sollten sich Nutzern zuwenden, auf deren Bewegung reagieren und einen natürlichen Blickkontakt halten. Bisherigen Methoden fehlt dieses räumliche Bewusstsein. Wir schließen diese Lücke mit der ersten echtzeitfähigen, vollständig kausalen Methode für räumlich bewusste Konversationsbewegung, die auf einem streamfähigen VR-Headset einsetzbar ist. Basierend auf der Position eines Nutzers und dyadischem Audio erzeugt unser Ansatz Ganzkörperbewegungen, die Gesten mit Sprache synchronisieren und den Agenten gleichzeitig am Nutzer ausrichten. Unsere Architektur kombiniert ein kausales transformerbasiertes VAE mit verschachtelten latenten Tokens für Streaming-Inferenz und ein Flow-Matching-Modell, das auf Nutzertrajektorie und Audio konditioniert ist. Um unterschiedliche Blickpräferenzen zu unterstützen, führen wir einen Blickbewertungsmechanismus mit Classifier-Free Guidance ein, um Lernen von Steuerung zu entkoppeln: Das Modell erfasst natürliche räumliche Ausrichtung aus Daten, während Nutzer die Blickkontaktintensität zur Laufzeit anpassen können. Auf dem Embody-3D-Datensatz erreicht unsere Methode state-of-the-art Bewegungsqualität bei über 300 FPS – dreimal schneller als nicht-kausale Baseline-Modelle – und erfasst dabei die subtile räumliche Dynamik natürlicher Konversation. Wir validieren unseren Ansatz auf einem Live-VR-System und ermöglichen so den Echtzeiteinsatz räumlich bewusster Konversationsagenten. Details siehe https://evonneng.github.io/sarah/.

Avey-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

Kompakte vortrainierte bidirektionale Encoder bilden nach wie vor das Rückgrat der industriellen NLP unter strengen Rechen- und Speicherbudgets. Ihre Effektivität rührt von der Fähigkeit der Self-Attention her, hochwertige bidirektionale Kontextualisierung mit Sequenzparallelität zu liefern, wie sie durch BERT-artige Architekturen populär wurde. Kürzlich wurde Avey als autoregressive, attention-freie Alternative eingeführt, die sich natürlich für eine Nur-Encoder-Adaption eignet. In diesem Beitrag formulieren wir Avey für das Nur-Encoder-Paradigma neu und schlagen mehrere Innovationen für seine Architektur vor, darunter entkoppelte statische und dynamische Parametrisierungen, stabilitätsorientierte Normalisierung und neuronale Kompression. Die Ergebnisse zeigen, dass diese neu formulierte Architektur positiv mit vier weit verbreiteten Transformer-basierten Encodern vergleichbar ist, sie auf Standard-Benchmarks für Token-Klassifikation und Informationsretrieval konsequent übertrifft und dabei effizienter auf lange Kontexte skaliert.

DeepVision-103K: Ein visuell vielfältiger, breit abdeckender und verifizierbarer mathematischer Datensatz für multimodales Reasoning
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als wirksam erwiesen, um die visuelle Reflexions- und Schlussfolgerungsfähigkeiten von großen multimodalen Modellen (LMMs) zu verbessern. Bisherige Datensätze stammen jedoch überwiegend entweder aus kleinskaliger manueller Erstellung oder aus der Rekombination bestehender Ressourcen, was die Datenvielfalt und -abdeckung einschränkt und damit weitere Leistungssteigerungen der Modelle begrenzt. Daher stellen wir DeepVision-103K vor, einen umfassenden Datensatz für das RLVR-Training, der vielfältige mathematische Themen aus dem K12-Bereich, umfangreiche Wissenspunkte und reichhaltige visuelle Elemente abdeckt. Auf DeepVision trainierte Modelle erzielen hohe Leistungen auf multimodalen mathematischen Benchmarks und generalisieren effektiv auf allgemeine multimodale Reasoning-Aufgaben. Weitere Analysen zeigen verbesserte visuelle Wahrnehmungs-, Reflexions- und Schlussfolgerungsfähigkeiten in den trainierten Modellen, was die Wirksamkeit von DeepVision für die Weiterentwicklung des multimodalen Reasonings bestätigt. Daten: https://huggingface.co/datasets/skylenage/DeepVision-103K{diese URL}.

VidEoMT: Ihr ViT ist heimlich auch ein Videosegmentierungsmodell
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

Bestehende Modelle für die Online-Videosegmentierung kombinieren typischerweise einen Einzelbild-Segmentierer mit komplexen, spezialisierten Tracking-Modulen. Obwohl effektiv, führen diese Module eine erhebliche architektonische Komplexität und Rechenlast ein. Jüngste Studien legen nahe, dass reine Vision-Transformer-(ViT)-Encoder, wenn sie mit ausreichender Kapazität skalieren und großangelegtem Vortraining versehen werden, eine präzise Bildsegmentierung ohne spezielle Module durchführen können. Motiviert durch diese Beobachtung schlagen wir den Video Encoder-only Mask Transformer (VidEoMT) vor, ein einfaches, rein encoder-basiertes Videosegmentierungsmodell, das auf dedizierte Tracking-Module verzichtet. Um zeitliche Modellierung in einem reinen ViT-Encoder zu ermöglichen, führt VidEoMT einen leichtgewichtigen Query-Propagierungsmechanismus ein, der Informationen über Frames hinweg transportiert, indem Queries aus dem vorherigen Frame wiederverwendet werden. Um dies mit der Anpassungsfähigkeit an neue Inhalte in Einklang zu bringen, verwendet es eine Query-Fusion-Strategie, die die propagierten Queries mit einem Satz zeitlich unabhängiger, gelernter Queries kombiniert. Dadurch erzielt VidEoMT die Vorteile eines Trackers ohne zusätzliche Komplexität, erreicht eine vergleichbare Genauigkeit und ist dabei 5–10 mal schneller – mit einer ViT-L-Backbone-Architektur werden bis zu 160 FPS erzielt. Code: https://www.tue-mps.org/videomt/

4RC: 4D-Rekonstruktion durch bedingte Abfrage jederzeit und überall
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

Wir stellen 4RC vor, ein einheitliches Feed-Forward-Framework für die 4D-Rekonstruktion aus monokularen Videos. Im Gegensatz zu bestehenden Ansätzen, die Bewegung typischerweise von der Geometrie entkoppeln oder nur begrenzte 4D-Attribute wie spärliche Trajektorien oder Szenenfluss zwischen zwei Ansichten erzeugen, lernt 4RC eine holistische 4D-Repräsentation, die dichte Szenengeometrie und Bewegungsdynamik gemeinsam erfasst. Kernstück von 4RC ist ein neuartiges Paradigma des "Einmal-Encodierens, Abfragen-überall-und-jederzeit": Ein Transformer-Backbone encodiert das gesamte Video in einen kompakten raumzeitlichen latenten Raum, aus dem ein bedingter Decoder effizient 3D-Geometrie und Bewegung für jeden beliebigen Abfragezeitpunkt abfragen kann. Um das Lernen zu erleichtern, repräsentieren wir 4D-Attribute pro Ansicht in einer minimal faktorisierten Form, indem wir sie in Basisgeometrie und zeitabhängige Relativbewegung zerlegen. Umfangreiche Experimente zeigen, dass 4RC bisherige und gleichzeitige Methoden bei einer Vielzahl von 4D-Rekonstruktionsaufgaben übertrifft.

Lernen glatter zeitvarianter linearer Politiken mit einer Aktions-Jacobi-Strafe
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

Reinforcement Learning bietet einen Rahmen zum Erlernen von Steuerungsrichtlinien, die verschiedene Bewegungen für simulierte Charaktere reproduzieren können. Solche Richtlinien nutzen jedoch oft unnatürliche Hochfrequenzsignale aus, die von Menschen oder physischen Robotern nicht erreicht werden können, was sie zu schlechten Repräsentationen von Verhaltensweisen in der realen Welt macht. Bestehende Arbeiten behandeln dieses Problem durch Hinzufügen eines Belohnungsterms, der große Änderungen in den Aktionen über die Zeit bestraft. Dieser Term erfordert oft erheblichen Abstimmungsaufwand. Wir schlagen vor, die Action-Jacobian-Strafe zu verwenden, die Änderungen in der Aktion in Bezug auf Änderungen im simulierten Zustand direkt durch automatische Differentiation bestraft. Dies eliminiert unrealistische Hochfrequenzsteuersignale effektiv ohne aufgabenspezifische Abstimmung. Obwohl wirksam, führt die Action-Jacobian-Strafe einen erheblichen Rechenaufwand ein, wenn sie mit traditionellen vollvernetzten neuronalen Netzarchitekturen verwendet wird. Um dies abzumildern, führen wir eine neue Architektur namens Linear Policy Net (LPN) ein, die die Rechenlast für die Berechnung der Action-Jacobian-Strafe während des Trainings erheblich reduziert. Darüber hinaus erfordert ein LPN keine Parameterabstimmung, zeigt eine schnellere Lernkonvergenz im Vergleich zu Baseline-Methoden und kann während der Inferenzzeit effizienter abgefragt werden als ein vollvernetztes neuronales Netz. Wir demonstrieren, dass ein Linear Policy Net in Kombination mit der Action-Jacobian-Strafe in der Lage ist, Richtlinien zu erlernen, die glatte Signale erzeugen und gleichzeitig eine Reihe von Bewegungsimitationsaufgaben mit unterschiedlichen Charakteristiken lösen, einschließlich dynamischer Bewegungen wie einem Rückwärtssalto und verschiedenen anspruchsvollen Parkour-Fertigkeiten. Schließlich wenden wir diesen Ansatz an, um Richtlinien für dynamische Bewegungen auf einem physischen quadrupeden Roboter mit einem Arm zu erstellen.

Sink-bewusstes Pruning für Diffusionssprachmodelle
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

Diffusions-Sprachmodelle (DLMs) verursachen aufgrund des iterativen Denoising-Prozesses hohe Inferenzkosten, was effizientes Pruning motiviert. Bestehende Pruning-Heuristiken, die größtenteils von autoregressiven (AR) LLMs übernommen wurden, bewahren typischerweise Attention-Sink-Tokens, da AR-Sinks als stabile globale Anker dienen. Wir zeigen, dass diese Annahme für DLMs nicht zutrifft: Die Position des Attention-Sinks weist über den gesamten Generierungspfad eine erheblich höhere Varianz auf (gemessen daran, wie sich die dominanten Sink-Positionen über die Zeitschritte hinweg verschieben), was darauf hindeutet, dass Sinks in DLMs oft transient und strukturell weniger essenziell sind als in AR-Modellen. Basierend auf dieser Beobachtung schlagen wir **Sink-Aware Pruning** vor, das instabile Sinks in DLMs automatisch identifiziert und entfernt (bisherige Studien bewahren Sinks typischerweise für AR-LLMs). Ohne Neutraining erreicht unsere Methode eine bessere Qualitäts-Effizienz-Abwägung und übertrifft unter gleichen Rechenkosten starke bisherige Pruning-Baselines. Unser Code ist verfügbar unter https://github.com/VILA-Lab/Sink-Aware-Pruning.

Selektives Training für große visuelle Sprachmodelle durch visuellen Informationsgewinn
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

Große visuelle Sprachmodelle (LVLMs) haben bemerkenswerte Fortschritte erzielt, leiden jedoch oft unter Sprachverzerrung, indem sie Antworten produzieren, ohne sich auf visuelle Evidenz zu stützen. Während frühere Arbeiten versuchen, dieses Problem durch Dekodierungsstrategien, architektonische Modifikationen oder kuratierte Instruktionsdaten zu mildern, fehlt ihnen typischerweise eine quantitative Messgröße dafür, wie stark einzelne Trainingsdatenpunkte oder Tokens tatsächlich vom Bild profitieren. In dieser Arbeit führen wir den Visuellen Informationsgewinn (VIG) ein, eine auf Perplexität basierende Metrik, die die Verringerung der Vorhersageunsicherheit durch visuelle Eingabe misst. VIG ermöglicht eine feingranulare Analyse auf Ebene einzelner Datenpunkte und Tokens und hebt effektiv visuell fundierte Elemente wie Farben, räumliche Beziehungen und Attribute hervor. Darauf aufbauend schlagen wir ein VIG-gesteuertes selektives Trainingsschema vor, das Datenpunkte und Tokens mit hohem VIG priorisiert. Dieser Ansatz verbessert die visuelle Verankerung und mildert Sprachverzerrung, erzielt eine überlegene Leistung und reduziert den Überwachungsaufwand erheblich, indem er sich ausschließlich auf visuell informative Datenpunkte und Tokens konzentriert.

ReIn: Konversationsfehlerbehebung durch Reasoning Inception
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

Konversationsagenten, die auf großen Sprachmodellen (LLM) mit Werkzeugintegration basieren, erzielen zwar hohe Leistungswerte auf festen, aufgabenorientierten Dialogdatensätzen, bleiben jedoch anfällig für unerwartete, nutzerbedingte Fehler. Anstatt auf Fehlervermeidung zu setzen, konzentriert sich diese Arbeit auf die Fehlerbehebung, was eine genaue Diagnose fehlerhafter Dialogkontexte und die Ausführung geeigneter Wiederherstellungspläne erfordert. Unter realistischen Einschränkungen, die eine Feinabstimmung des Modells oder eine Anpassung der Prompts aufgrund erheblicher Kosten- und Zeitaufwände ausschließen, untersuchen wir, ob Agenten aus kontextuell fehlerhaften Interaktionen wiederherstellen können und wie ihr Verhalten ohne Änderung der Modellparameter und Prompts angepasst werden kann. Zu diesem Zweck schlagen wir Reasoning Inception (ReIn) vor, eine Methode zur Intervention zur Testzeit, die eine initiale Schlussfolgerung in den Entscheidungsprozess des Agenten einpflanzt. Konkret identifiziert ein externes Inception-Modul vordefinierte Fehler im Dialogkontext und generiert Wiederherstellungspläne, die anschließend in den internen Reasoning-Prozess des Agenten integriert werden, um korrigierende Maßnahmen zu steuern – ohne dessen Parameter oder System-Prompts zu verändern. Wir evaluieren ReIn durch systematische Simulation von Konversationsfehlerszenarien, die die erfolgreiche Erfüllung von Nutzerzielen direkt behindern: mehrdeutige und nicht unterstützte Nutzeranfragen. Über diverse Kombinationen von Agentenmodellen und Inception-Modulen hinweg verbessert ReIn die Aufgabenerfüllung erheblich und verallgemeinert auf unbekannte Fehlertypen. Darüber hinaus übertrifft es durchgängig explizite Prompt-Modifikationsansätze, was seinen Nutzen als effiziente Echtzeitmethode unterstreicht. Eine tiefgehende Analyse des Wirkmechanismus, insbesondere in Bezug auf die Befehls-Hierarchie, zeigt, dass die gemeinsame Definition von Wiederherstellungswerkzeugen mit ReIn eine sichere und effektive Strategie zur Verbesserung der Robustheit von Konversationsagenten darstellen kann, ohne die zugrundeliegenden Modelle oder System-Prompts zu verändern.

Adam verbessert Muon: Adaptive Momentenschätzung mit orthogonalisiertem Impuls
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

Effiziente stochastische Optimierung integriert typischerweise eine Update-Richtung, die gute Leistung im deterministischen Regime zeigt, mit einem Mechanismus, der sich an stochastische Störungen anpasst. Während Adam adaptive Momentenschätzung zur Förderung der Stabilität nutzt, verwendet Muon die Matrixstruktur der Gewichtslagen über orthogonalisierten Momentum und zeigt überlegene Leistung beim Training großer Sprachmodelle. Wir schlagen einen neuen Optimierer und eine diagonale Erweiterung vor, NAMO und NAMO-D, die die erste prinzipielle Integration von orthogonalisiertem Momentum mit normbasierter Adam-artiger Rauschanpassung bieten. NAMO skaliert orthogonalisierten Momentum unter Verwendung eines einzelnen adaptiven Schrittmaßes, bewahrt dabei die Orthogonalität und verbessert die Leistung von Muon bei vernachlässigbarem zusätzlichem Aufwand. NAMO-D multipliziert stattdessen orthogonalisierten Momentum rechts mit einer Diagonalmatrix mit begrenzten Einträgen. Dieses Design ermöglicht eine neuronweise Rauschanpassung und entspricht der üblichen nahezu blockdiagonalen Hessischen Struktur. Unter Standardannahmen zeigen wir optimale Konvergenzraten für beide Algorithmen im deterministischen Fall und weisen nach, dass ihre Konvergenzgarantien im stochastischen Fall an das Rauschniveau der stochastischen Gradienten adaptieren. Experimente zum Vortraining von GPT-2-Modellen demonstrieren eine verbesserte Leistung von NAMO und NAMO-D im Vergleich zu den AdamW- und Muon-Baselines, wobei NAMO-D durch einen zusätzlichen Begrenzungshyperparameter weitere Gewinne gegenüber NAMO erzielt, der die konkurrierenden Ziele der Beibehaltung einer gut konditionierten Update-Richtung und der Nutzung feinkörniger Rauschanpassung ausbalanciert.

Rubriken als Angriffsfläche: Verdeckte Präferenzverschiebung bei LLM-Beurteilern
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

Bewertungs- und Alignment-Pipelines für große Sprachmodelle setzen zunehmend auf LLM-basierte Bewerter, deren Verhalten durch natürlichsprachliche Bewertungsraster gesteuert und an Benchmarks validiert wird. Wir identifizieren eine bisher wenig beachtete Schwachstelle in diesem Workflow, die wir als Bewertungsraster-induzierte Präferenzverschiebung (RIPD) bezeichnen. Selbst wenn Änderungen am Bewertungsraster die Benchmark-Validierung bestehen, können sie dennoch systematische und gerichtete Verschiebungen in den Präferenzen eines Bewerters in den Zielbereichen verursachen. Da Bewertungsraster als hochrangige Entscheidungsschnittstelle dienen, kann eine solche Verschiebung durch scheinbar natürliche, kriterienerhaltende Änderungen entstehen und mittels aggregierter Benchmark-Metriken oder begrenzter Stichproben schwer zu erkennen bleiben. Wir zeigen weiterhin, dass diese Schwachstelle durch Bewertungsraster-basierte Präferenzangriffe ausgenutzt werden kann, bei denen benchmark-konforme Änderungen am Raster die Urteile auf den Zielbereichen von einem festen menschlichen oder vertrauenswürdigen Referenzpunkt weglenken, systematisch RIPD induzieren und die Genauigkeit auf der Zielbereich um bis zu 9,5 % (Hilfreichkeitsbewertung) bzw. 27,9 % (Unbedenklichkeitsbewertung) reduzieren. Wenn diese Urteile zur Generierung von Präferenzlabels für nachgelagertes Post-Training verwendet werden, pflanzt sich die induzierte Verzerrung durch die Alignment-Pipelines fort und wird in den trainierten Policies verinnerlicht. Dies führt zu einer persistente und systematische Verschiebung im Modellverhalten. Insgesamt unterstreichen unsere Ergebnisse Bewertungsraster als eine sensible und manipulierbare Steuerungsschnittstelle und decken ein systemisches Alignment-Risiko auf, das über die reine Bewerterzuverlässigkeit hinausgeht. Der Code ist verfügbar unter: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warnung: Bestimmte Abschnitte können potenziell schädliche Inhalte enthalten, die für manche Leser möglicherweise nicht geeignet sind.

Wen für Was Befragen: Adaptive Gruppenerhebung durch Mehrschritt-Interaktionen mit KI-Sprachmodellen
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

Die Gewinnung von Informationen zur Reduzierung von Unsicherheiten über latente gruppenbezogene Eigenschaften aus Umfragen und anderen kollektiven Erhebungen erfordert die Zuteilung begrenzter Befragungsressourcen unter realen Kosten und bei unvollständigen Daten. Obwohl große Sprachmodelle adaptive, mehrstufige Interaktionen in natürlicher Sprache ermöglichen, optimieren die meisten bestehenden Erhebungsmethoden lediglich die Fragenauswahl für einen festen Teilnehmerpool, ohne die Auswahl der Befragten anzupassen oder Populationsstrukturen bei unvollständigen Antworten zu nutzen. Um diese Lücke zu schließen, untersuchen wir adaptive Gruppenerhebung, ein mehrstufiges Szenario, in dem ein Agent sowohl Fragen als auch Befragte unter expliziten Abfrage- und Teilnahmebudgets adaptiv auswählt. Wir schlagen einen theoretisch fundierten Rahmen vor, der (i) ein auf großen Sprachmodellen basierendes Zielkriterium des erwarteten Informationsgewinns zur Bewertung von Kandidatenfragen mit (ii) heterogener Graph-Neural-Network-Propagation kombiniert, die beobachtete Antworten und Teilnehmermerkmale aggregiert, um fehlende Antworten zu imputieren und die pro Runde Auswahl der Befragten zu steuern. Dieses geschlossene Verfahren befragt eine kleine, informative Teilmenge von Individuen, während populationsbezogene Antworten durch strukturierte Ähnlichkeit abgeleitet werden. In drei realen Meinungsdatensätzen verbessert unsere Methode durchgängig die Vorhersage von Antworten auf Populationsebene unter begrenzten Budgets, einschließlich eines relativen Gewinns von >12 % beim CES bei einem Befragtenbudget von 10 %.

ReIn: Konversationsfehlerbehebung durch Reasoning Inception
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür