HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

24 papers found

Matrix-Game: Interaktives Weltgrundlagenmodell
Matrix-Game: Interactive World Foundation Model

Jun 23

ByYifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

Wir stellen Matrix-Game vor, ein interaktives Weltgrundlagenmodell zur kontrollierbaren Generierung von Spielwelten. Matrix-Game wird in einem zweistufigen Pipeline-Verfahren trainiert, das zunächst ein groß angelegtes, unüberwachtes Vortraining zur Umgebungsverständigung durchführt, gefolgt von einem aktionsbeschrifteten Training zur interaktiven Videogenerierung. Um dies zu unterstützen, haben wir Matrix-Game-MC kuratiert, einen umfassenden Minecraft-Datensatz, der über 2.700 Stunden unmarkierte Gameplay-Videoclips und mehr als 1.000 Stunden hochwertige, mit feingranularen Tastatur- und Mausaktionen annotierte Clips umfasst. Unser Modell folgt einem kontrollierbaren Bild-zu-Welt-Generierungsparadigma, das auf einem Referenzbild, einem Bewegungskontext und Benutzeraktionen basiert. Mit über 17 Milliarden Parametern ermöglicht Matrix-Game eine präzise Steuerung von Charakteraktionen und Kamerabewegungen bei gleichbleibend hoher visueller Qualität und zeitlicher Kohärenz. Zur Leistungsbewertung entwickeln wir GameWorld Score, einen einheitlichen Benchmark, der visuelle Qualität, zeitliche Qualität, Aktionskontrollierbarkeit und das Verständnis physikalischer Regeln für die Minecraft-Weltgenerierung misst. Umfangreiche Experimente zeigen, dass Matrix-Game durchweg alle bisherigen Open-Source-Minecraft-Weltmodelle (einschließlich Oasis und MineWorld) in allen Metriken übertrifft, mit besonders deutlichen Verbesserungen in der Kontrollierbarkeit und physikalischen Konsistenz. Doppelblind durchgeführte menschliche Bewertungen bestätigen weiterhin die Überlegenheit von Matrix-Game und unterstreichen seine Fähigkeit, wahrnehmungsrealistische und präzise steuerbare Videos in diversen Spielszenarien zu generieren. Um zukünftige Forschungen zur interaktiven Bild-zu-Welt-Generierung zu erleichtern, werden wir die Matrix-Game-Modellgewichte und den GameWorld Score-Benchmark unter https://github.com/SkyworkAI/Matrix-Game open-source zur Verfügung stellen.

JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retusche-Agenten
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Jun 21

ByYunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

Die Fotoretusche ist zu einem integralen Bestandteil des zeitgenössischen visuellen Storytellings geworden und ermöglicht es Nutzern, Ästhetik einzufangen und Kreativität auszudrücken. Während professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie beträchtliche Expertise und manuellen Aufwand. Im Gegensatz dazu bieten bestehende KI-basierte Lösungen zwar Automatisierung, leiden jedoch oft unter begrenzter Anpassungsfähigkeit und schlechter Generalisierung, wodurch sie vielfältige und personalisierte Bearbeitungsbedürfnisse nicht erfüllen können. Um diese Lücke zu schließen, stellen wir JarvisArt vor, einen multi-modalen Large Language Model (MLLM)-gesteuerten Agenten, der die Absichten der Nutzer versteht, den Denkprozess professioneller Künstler nachahmt und intelligent über 200 Retusche-Werkzeuge innerhalb von Lightroom koordiniert. JarvisArt durchläuft einen zweistufigen Trainingsprozess: eine anfängliche Chain-of-Thought-supervised Feinabstimmung, um grundlegende Denk- und Werkzeugnutzungskompetenzen zu etablieren, gefolgt von Group Relative Policy Optimization for Retouching (GRPO-R), um seine Entscheidungsfindung und Werkzeugbeherrschung weiter zu verbessern. Wir schlagen außerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu ermöglichen. Zur Bewertung der Leistung entwickeln wir MMArt-Bench, einen neuartigen Benchmark, der auf realen Nutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktion, überlegene Generalisierung und fein abgestimmte Kontrolle über sowohl globale als auch lokale Anpassungen und ebnet so einen neuen Weg für intelligente Fotoretusche. Bemerkenswerterweise übertrifft es GPT-4o mit einer 60%igen Verbesserung der durchschnittlichen Pixel-Level-Metriken auf MMArt-Bench in Bezug auf Inhaltsgenauigkeit, bei gleichzeitig vergleichbaren Fähigkeiten zur Befolgung von Anweisungen. Projektseite: https://jarvisart.vercel.app/.

AnimaX: Belebung des Unbelebten in 3D mit gemeinsamen Video-Pose-Diffusionsmodellen
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Jun 24

ByZehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng

Wir präsentieren AnimaX, ein vorwärtsgerichtetes 3D-Animationsframework, das die Bewegungspräferenzen von Video-Diffusionsmodellen mit der kontrollierbaren Struktur von skelettbasierter Animation verbindet. Traditionelle Methoden zur Bewegungssynthese sind entweder auf feste Skeletttopologien beschränkt oder erfordern kostspielige Optimierungen in hochdimensionalen Verformungsräumen. Im Gegensatz dazu überträgt AnimaX effektiv videobasiertes Bewegungswissen in den 3D-Bereich und unterstützt diverse artikulierte Meshes mit beliebigen Skeletten. Unsere Methode repräsentiert 3D-Bewegungen als Multi-View-, Multi-Frame-2D-Pose-Maps und ermöglicht eine gemeinsame Video-Pose-Diffusion, die auf Template-Renderings und einem textuellen Bewegungs-Prompt basiert. Wir führen gemeinsame Positionskodierungen und modalitätsbewusste Einbettungen ein, um die räumlich-zeitliche Ausrichtung zwischen Video- und Pose-Sequenzen sicherzustellen und so Video-Prioritäten effektiv auf die Bewegungsgenerationsaufgabe zu übertragen. Die resultierenden Multi-View-Pose-Sequenzen werden in 3D-Gelenkpositionen trianguliert und über inverse Kinematik in Mesh-Animationen umgewandelt. AnimaX, das auf einem neu kuratierten Datensatz von 160.000 rigged Sequenzen trainiert wurde, erzielt state-of-the-art Ergebnisse auf VBench in Bezug auf Generalisierung, Bewegungsfidelität und Effizienz und bietet eine skalierbare Lösung für kategorieagnostische 3D-Animation. Projektseite: https://anima-x.github.io/{https://anima-x.github.io/}.

Skywork-SWE: Enthüllung der Daten-Skalierungsgesetze für Softwareentwicklung in LLMs
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Jun 24

ByLiang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

Die Softwareentwicklung (SWE) hat sich kürzlich als entscheidendes Testfeld für die nächste Generation von LLM-Agenten (Large Language Models) erwiesen, die inhärente Fähigkeiten in zwei kritischen Dimensionen erfordern: nachhaltiges iteratives Problemlösen (z.B. >50 Interaktionsrunden) und die Bewältigung von langen Kontextabhängigkeiten (z.B. >32k Tokens). Der Datenkuratierungsprozess in der SWE bleibt jedoch notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Folglich sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub beschränkt. Um dies zu adressieren, schlagen wir eine inkrementelle, automatisierte Datenkuratierungs-Pipeline vor, die sowohl das Volumen als auch die Vielfalt von SWE-Datensätzen systematisch skaliert. Unser Datensatz umfasst 10.169 reale Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositories, jeweils ergänzt durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungs-Image zur automatisierten Unit-Test-Validierung. Wir haben sorgfältig über 8.000 erfolgreich validierte Trainingsverläufe aus unserem vorgeschlagenen SWE-Datensatz kuratiert. Bei der Feinabstimmung des Skywork-SWE-Modells auf diesen Verläufen entdecken wir ein bemerkenswertes Daten-Skalierungsphänomen: Die Leistung des trainierten Modells für Softwareentwicklungsfähigkeiten in LLMs verbessert sich kontinuierlich mit zunehmender Datengröße, ohne Anzeichen von Sättigung zu zeigen. Insbesondere erreicht unser Skywork-SWE-Modell eine Genauigkeit von 38,0 % pass@1 auf dem SWE-bench Verified Benchmark, ohne Verifizierer oder mehrere Rollouts zu verwenden, und setzt damit einen neuen State-of-the-Art (SOTA) unter den auf dem OpenHands-Agenten-Framework basierenden Qwen2.5-Coder-32B-LLMs. Darüber hinaus verbessert sich die Leistung durch die Einbindung von Testzeit-Skalierungstechniken auf 47,0 % Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32B Parametern übertrifft. Wir veröffentlichen den Skywork-SWE-32B-Modell-Checkpoint, um zukünftige Forschung zu beschleunigen.

Chain-of-Experts: Die Kommunikationskraft von Mixture-of-Experts-Modellen freisetzen
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

Jun 23

ByZihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu

Wir schlagen Chain-of-Experts (CoE) vor, eine neue Mixture-of-Experts (MoE)-Architektur, die eine sequenzielle Kommunikation zwischen Experten innerhalb jeder Schicht einführt. Im Gegensatz zu traditionellen MoE-Modellen, bei denen Experten unabhängig und parallel arbeiten, verarbeitet CoE Token iterativ über eine Kette von Experten innerhalb einer Schicht. Um die dynamische Expertenauswahl über Iterationen hinweg zu unterstützen, verwendet CoE einen dedizierten Router bei jedem Iterationsschritt innerhalb einer Schicht. Dieses Design ermöglicht es Token, bei jeder Iteration erneut zu bewerten und verschiedene Experten auszuwählen, anstatt statisch zugewiesen zu werden. Dadurch führt CoE einen flexiblen Routing-Mechanismus ein, der die Vielfalt der Expertenkombinationen erhöht und die Repräsentationsfähigkeit des Modells bereichert. CoE zeigt eine verbesserte Leistung bei festgelegter Rechenleistung: Bei mathematischen Denkaufgaben reduziert es den Validierungsverlust von 1,20 auf 1,12 im Vergleich zu einem Standard-MoE. Über die Leistung hinaus bietet CoE eine neue Skalierungsachse: Tiefe durch Experteniteration, die die konventionelle Skalierung in Breite/Tiefe ergänzt. Beispielsweise erreicht die Verwendung von 2x Iterationen die Leistung von 3x Expertenauswahlen (in der Breite), während der Speicherverbrauch im Vergleich zu anderen Skalierungsstrategien um 17,6–42 % reduziert wird. Unsere Analyse zeigt, dass die Vorteile von CoE aus seiner iterativen Residualstruktur und der verbesserten Experten-Spezialisierung resultieren, die durch iteratives Routing ermöglicht wird, wodurch ausdrucksstärkere Repräsentationen freigesetzt werden. Der Code ist verfügbar unter https://github.com/ZihanWang314/coe.

Vereinheitlichtes Vision-Sprache-Handlung-Modell
Unified Vision-Language-Action Model

Jun 24

ByYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang

Vision-Language-Action-Modelle (VLAs) haben aufgrund ihres Potenzials zur Weiterentwicklung der robotischen Manipulation erhebliche Aufmerksamkeit erregt. Bisherige Ansätze stützen sich jedoch überwiegend auf die allgemeinen Verständnisfähigkeiten von Vision-Language-Modellen (VLMs), um Aktionssignale zu generieren, wobei häufig die reichhaltige zeitliche und kausale Struktur, die in visuellen Beobachtungen enthalten ist, übersehen wird. In diesem Artikel stellen wir UniVLA vor, ein einheitliches und natives multimodales VLA-Modell, das visuelle, sprachliche und aktionsbezogene Signale autoregressiv als diskrete Token-Sequenzen modelliert. Diese Formulierung ermöglicht flexibles Lernen multimodaler Aufgaben, insbesondere aus groß angelegten Videodaten. Durch die Einbindung von Weltmodellierung während des Post-Trainings erfasst UniVLA kausale Dynamiken aus Videos, was einen effektiven Transfer auf nachgelagerte Policy-Lernaufgaben erleichtert – insbesondere für langfristige Aufgaben. Unser Ansatz erzielt neue State-of-the-Art-Ergebnisse in mehreren weit verbreiteten Simulationsbenchmarks, darunter CALVIN, LIBERO und Simplenv-Bridge, und übertrifft dabei bisherige Methoden deutlich. Beispielsweise erreicht UniVLA eine durchschnittliche Erfolgsrate von 95,5 % im LIBERO-Benchmark und übertrifft damit pi0-FAST mit 85,5 %. Darüber hinaus demonstrieren wir seine breite Anwendbarkeit in der realen Welt, sowohl bei der ALOHA-Manipulation als auch beim autonomen Fahren.

GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Schließen
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Jun 19

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu

Aktuelle Ansätze im Bereich des bestärkenden Lernens, wie das ergebnisüberwachte GRPO, haben das Chain-of-Thought-Reasoning in großen Sprachmodellen (LLMs) vorangetrieben, doch ihre Anpassung an multimodale LLMs (MLLMs) ist bisher unerforscht. Um den Mangel an rigoroser Bewertung von Nachschulungsmethoden für MLLMs zu beheben, führen wir SEED-Bench-R1 ein, einen Benchmark mit komplexen realen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Er bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungsfähigkeit über drei zunehmend anspruchsvolle Herausforderungen: In-Distribution, Cross-Environment und Cross-Environment-Task-Szenarien. Mit SEED-Bench-R1 stellen wir fest, dass das Standard-GRPO zwar die Antwortgenauigkeit verbessert, jedoch häufig die logische Kohärenz zwischen den Denkschritten und den Antworten verringert, mit einer Konsistenzrate von nur 57,9 %. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf die Endantworten konzentrieren, was Abkürzungen fördert, sowie aus strengen KL-Strafen, die die Exploration einschränken. Um dies zu beheben, schlagen wir GRPO-CARE vor, ein konsistenzbewusstes RL-Framework, das sowohl die Antwortkorrektheit als auch die Schlussfolgerungskohärenz ohne explizite Überwachung optimiert. GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Grundbelohnung für die Antwortkorrektheit und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit der Schlussfolgerung zur Antwort des Modells (über ein langsam evolvierendes Referenzmodell) mit den Gruppenkollegen berechnet wird. Dieser duale Mechanismus verstärkt die Belohnungen für Denkpfade, die sowohl korrekt als auch logisch konsistent sind. Indem KL-Strafen durch diesen adaptiven Bonus ersetzt werden, übertrifft GRPO-CARE das Standard-GRPO auf SEED-Bench-R1 und erzielt eine Leistungssteigerung von 6,7 % auf der schwierigsten Bewertungsstufe und eine Verbesserung der Konsistenz um 24,5 %. Es zeigt auch eine starke Übertragbarkeit und verbessert die Modellleistung über verschiedene Benchmarks zur Videoverständnis hinweg. Unsere Arbeit leistet einen systematisch gestalteten Benchmark und ein generalisierbares Nachschulungsframework, das die Entwicklung interpretierbarer und robusterer MLLMs vorantreibt.

ScaleCap: Inferenzzeit-skalierbare Bildbeschriftung durch Dual-Modality-Debiasing
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Jun 24

ByLong Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

Dieses Papier stellt ScaleCap vor, eine skalierbare Strategie zur Bildbeschreibung zur Inferenzzeit, die umfassende und detaillierte Bildbeschreibungen generiert. Die zentralen Herausforderungen bei hochwertiger Bildbeschreibung liegen in den inhärenten Verzerrungen von LVLMs (Large Vision-Language Models): multimodale Verzerrungen, die zu einer unausgewogenen Beschreibungsgranularität führen, indem sie einige Elemente detailliert darstellen, während andere nur oberflächlich behandelt werden; linguistische Verzerrungen, die zu halluzinierten Beschreibungen nicht existierender Objekte führen. Um diese Probleme zu adressieren, schlagen wir eine skalierbare, entzerrte Beschreibungsstrategie vor, die die Bildbeschreibung kontinuierlich mit zunehmendem Inferenzbudget anreichert und kalibriert. Konkret schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antworten und kontrastive Satzbewertung. Erstere generiert inhaltsbezogene Fragen basierend auf dem Bild und beantwortet diese, um schrittweise relevante Informationen in die Beschreibung einzufügen. Letztere verwendet satzbasierte, offline kontrastive Dekodierung, um effektiv Halluzinationen, die durch linguistische Verzerrungen verursacht werden, zu identifizieren und zu eliminieren. Mit steigenden Inferenzkosten stellt ScaleCap mehr heuristische Fragen, um zusätzliche visuelle Details schrittweise zu erfassen und so Beschreibungen zu generieren, die genauer, ausgewogener und informativer sind. Umfangreiche Experimente zur Modalitätsausrichtung demonstrieren die Wirksamkeit von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und deren Verwendung für das Pretraining von LVLMs führt zu konsistenten Leistungssteigerungen über 11 weit verbreitete Benchmarks hinweg. Darüber hinaus zeigt ScaleCap eine hervorragende Reichhaltigkeit und Treue der generierten Beschreibungen in zwei zusätzlichen Aufgaben: dem Ersetzen von Bildern durch Beschreibungen in VQA-Aufgaben (Visual Question Answering) und der Rekonstruktion von Bildern aus Beschreibungen zur Bewertung der semantischen Abdeckung. Der Code ist verfügbar unter https://github.com/Cooperx521/ScaleCap.

SWE-SQL: Aufklärung der LLM-Pfade zur Lösung von Benutzer-SQL-Problemen in realen Anwendungen
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jun 23

ByJinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng

Die Lösung komplexer SQL-Probleme bleibt ein erheblicher Engpass in realen Datenbankanwendungen. Aktuelle Large Language Models (LLMs), obwohl geschickt in der Text-zu-SQL-Übersetzung, wurden nicht rigoros auf die anspruchsvollere Aufgabe des Debuggens von SQL-Problemen evaluiert. Um diese Lücke zu schließen, führen wir BIRD-CRITIC ein, einen neuen Benchmark für das Debuggen von SQL-Problemen, der 530 PostgreSQL-Aufgaben (BIRD-CRITIC-PG) und 570 Multi-Dialekt-Aufgaben (BIRD-CRITIC-Multi) umfasst, die aus authentischen Benutzerproblemen destilliert und in neuen Umgebungen wiedergegeben wurden, um eine strenge Evaluation zu ermöglichen. Baseline-Evaluationen unterstreichen die Komplexität der Aufgabe, wobei das führende Reasoning-Modell O3-Mini nur eine Erfolgsrate von 38,87 % auf BIRD-CRITIC-PG und 33,33 % auf BIRD-CRITIC-Multi erreicht. Gleichzeitig ist die Weiterentwicklung von Open-Source-Modellen für Datenbankaufgaben entscheidend, um die lokale Entwicklung zu stärken und gleichzeitig die Datensicherheit zu gewährleisten. Daher präsentieren wir Six-Gym (Sql-fIX-Gym), eine Trainingsumgebung zur Verbesserung der Fähigkeiten von Open-Source-Modellen beim Debuggen von SQL-Problemen. Diese Umgebung nutzt die SQL-Rewind-Strategie, die automatisch ausführbare Problem-Lösungs-Datensätze durch Reverse-Engineering von Problemen aus verifizierten SQLs generiert. Beliebte, auf Trajektorien basierende Feinabstimmungsmethoden erforschen jedoch keine wesentlichen Überwachungssignale. Wir schlagen weiterhin f-Plan Boosting vor, das hochrangige Debugging-Pläne aus SQL-Lösungen extrahiert und es Lehrer-LLMs ermöglicht, 73,7 % mehr erfolgreiche Trajektorien für das Training zu erzeugen. Wir integrieren diese Komponenten in einen Open-Source-Agenten, Bird-Fixer. Basierend auf Qwen-2.5-Coder-14B erreicht Bird-Fixer eine Erfolgsrate von 38,11 % auf BIRD-CRITIC-PG und 29,65 % auf BIRD-CRITIC-Multi und übertrifft damit führende proprietäre Modelle wie Claude-3.7-Sonnet und GPT-4.1, was einen bedeutenden Schritt zur Demokratisierung anspruchsvoller SQL-Debugging-Fähigkeiten darstellt. Die Bestenliste und der Quellcode sind verfügbar: https://bird-critic.github.io/

MMSearch-R1: Anreize für LMMs zur Suche
MMSearch-R1: Incentivizing LMMs to Search

Jun 25

ByJinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu

Die robuste Bereitstellung großer multimodaler Modelle (LMMs) in realen Anwendungsszenarien erfordert den Zugriff auf externe Wissensquellen, angesichts der Komplexität und Dynamik realweltlicher Informationen. Bestehende Ansätze wie retrieval-augmented generation (RAG) und prompt-gesteuerte Suchagenten basieren auf starren Pipelines, was häufig zu ineffizientem oder übermäßigem Suchverhalten führt. Wir präsentieren MMSearch-R1, das erste End-to-End-Reinforcement-Learning-Framework, das LMMs ermöglicht, bedarfsgerechte, mehrstufige Suchen in realen Internetumgebungen durchzuführen. Unser Framework integriert sowohl Bild- als auch Textsuchwerkzeuge und ermöglicht es dem Modell, zu entscheiden, wann und wie diese aufgerufen werden sollen, geleitet durch eine ergebnisbasierte Belohnung mit einer Suchstrafe. Zur Unterstützung des Trainings sammeln wir einen multimodalen Such-VQA-Datensatz durch eine halbautomatisierte Pipeline, die diverse visuelle und textuelle Wissensanforderungen abdeckt, und kuratieren eine suchausgewogene Teilmenge mit sowohl suchpflichtigen als auch suchfreien Beispielen, die sich als entscheidend für die Formung effizienten und bedarfsgerechten Suchverhaltens erweist. Umfangreiche Experimente zu wissensintensiven und informationssuchenden VQA-Aufgaben zeigen, dass unser Modell nicht nur RAG-basierte Baselines gleicher Modellgröße übertrifft, sondern auch die Leistung eines größeren RAG-basierten Modells erreicht, während die Suchaufrufe um über 30 % reduziert werden. Wir analysieren weiterhin zentrale empirische Erkenntnisse, um umsetzbare Einblicke für die Weiterentwicklung der Forschung im Bereich der multimodalen Suche zu bieten.

Können große Sprachmodelle menschliche Annotatorenunterschiede erfassen?
Can Large Language Models Capture Human Annotator Disagreements?

Jun 24

ByJingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash

Menschliche Annotationsvariation (d. h. Annotationen, bei denen keine Einigkeit besteht) ist in der NLP (Natural Language Processing) weit verbreitet und spiegelt oft wichtige Informationen wider, wie z. B. die Subjektivität der Aufgabe und die Mehrdeutigkeit der Beispiele. Während Large Language Models (LLMs) zunehmend für die automatische Annotation eingesetzt werden, um den menschlichen Aufwand zu reduzieren, konzentriert sich ihre Bewertung häufig auf die Vorhersage der mehrheitlich abgestimmten „Ground-Truth“-Labels. Es ist jedoch noch unklar, ob diese Modelle auch informative menschliche Annotationsvariationen erfassen können. Unsere Arbeit schließt diese Lücke, indem wir die Fähigkeit von LLMs, Annotationen ohne Zugriff auf wiederholte menschliche Labels vorherzusagen, umfassend evaluieren. Unsere Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, Uneinigkeiten zu modellieren, was bei Bewertungen, die auf Mehrheitslabels basieren, übersehen werden kann. Bemerkenswerterweise führt RLVR-ähnliches (Reinforcement Learning with Verifiable Rewards) Denken zwar allgemein zu einer Leistungssteigerung von LLMs, verschlechtert jedoch die Vorhersage von Uneinigkeiten. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit, LLM-Annotatoren in der Modellierung von Uneinigkeiten zu evaluieren und zu verbessern. Code und Daten sind unter https://github.com/EdisonNi-hku/Disagreement_Prediction verfügbar.

SRFT: Eine einstufige Methode mit überwachtem und verstärkendem Feintuning für das logische Schließen
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Jun 24

ByYuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei Denkaufgaben erzielt, doch die optimale Integration von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bleibt eine grundlegende Herausforderung. Durch eine umfassende Analyse von Token-Verteilungen, Lern-Dynamiken und Integrationsmechanismen aus entropiebasierten Perspektiven zeigen wir wesentliche Unterschiede zwischen diesen Paradigmen auf: SFT induziert grobkörnige globale Veränderungen in den Policy-Verteilungen der LLMs, während RL feinkörnige selektive Optimierungen durchführt, wobei die Entropie als kritischer Indikator für die Trainingswirksamkeit dient. Aufbauend auf diesen Beobachtungen schlagen wir Supervised Reinforcement Fine-Tuning (SRFT) vor, eine einstufige Methode, die beide Feinabstimmungs-Paradigmen durch entropiebewusste Gewichtungsmechanismen vereint. Unser Ansatz wendet SFT und RL gleichzeitig an, um das LLM direkt durch Demonstrationen und Selbstexplorations-Rollouts zu optimieren, anstatt auf zweistufige sequenzielle Methoden zurückzugreifen. Umfangreiche Experimente zeigen, dass SRFT eine durchschnittliche Genauigkeit von 59,1 % erreicht und Zero-RL-Methoden um 9,0 % auf fünf mathematischen Denk-Benchmarks und um 10,9 % auf drei Out-of-Distribution-Benchmarks übertrifft.

Anleitung im Frequenzbereich ermöglicht hochauflösendes Sampling bei niedrigen CFG-Skalierungen
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

Jun 24

BySeyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber

Classifier-free guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner bedingter Diffusionsmodelle entwickelt. Obwohl in der Praxis äußerst effektiv, sind die zugrunde liegenden Mechanismen, durch die CFG die Qualität, Detailtreue und Prompt-Ausrichtung verbessert, noch nicht vollständig verstanden. Wir präsentieren eine neuartige Perspektive auf CFG, indem wir seine Auswirkungen im Frequenzbereich analysieren und zeigen, dass niedrige und hohe Frequenzen unterschiedliche Auswirkungen auf die Generierungsqualität haben. Insbesondere steuert die niederfrequente Führung die globale Struktur und die Bedingungsausrichtung, während die hochfrequente Führung hauptsächlich die visuelle Detailtreue verbessert. Die Anwendung einer einheitlichen Skalierung über alle Frequenzen hinweg – wie es im Standard-CFG der Fall ist – führt jedoch bei hohen Skalen zu Übersättigung und reduzierter Diversität sowie bei niedrigen Skalen zu einer Verschlechterung der visuellen Qualität. Basierend auf diesen Erkenntnissen schlagen wir die frequenzentkoppelte Führung (Frequency-Decoupled Guidance, FDG) vor, einen effektiven Ansatz, der CFG in nieder- und hochfrequente Komponenten zerlegt und separate Führungsstärken auf jede Komponente anwendet. FDG verbessert die Bildqualität bei niedrigen Führungsskalen und vermeidet durch seine Konzeption die Nachteile hoher CFG-Skalen. Durch umfangreiche Experimente über mehrere Datensätze und Modelle hinweg zeigen wir, dass FDG die Probenqualität konsistent steigert, während die Diversität erhalten bleibt, was im Vergleich zu CFG zu verbesserten FID- und Recall-Werten führt. Damit etablieren wir unsere Methode als eine Plug-and-Play-Alternative zur standardmäßigen classifier-free guidance.

SimpleGVR: Eine einfache Baseline für latente kaskadierte Video-Superauflösung
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Jun 24

ByLiangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong

Latent-Diffusionsmodelle haben sich als führendes Paradigma für die effiziente Videogenerierung etabliert. Da sich die Nutzererwartungen jedoch zunehmend auf höher aufgelöste Ausgaben verlagern, reicht die alleinige Abhängigkeit von latenter Berechnung nicht mehr aus. Ein vielversprechender Ansatz besteht darin, den Prozess in zwei Stufen zu entkoppeln: die Generierung semantischer Inhalte und die Synthese von Details. Erstere verwendet ein rechenintensives Basismodell bei niedrigeren Auflösungen, während letztere ein leichtgewichtiges kaskadiertes Video-Super-Resolution (VSR)-Modell nutzt, um eine hochauflösende Ausgabe zu erzielen. In dieser Arbeit konzentrieren wir uns auf die Untersuchung zentraler Designprinzipien für kaskadierte VSR-Modelle, die derzeit noch unzureichend erforscht sind. Zunächst schlagen wir zwei Degradationsstrategien vor, um Trainingspaare zu generieren, die die Ausgabeeigenschaften des Basismodells besser nachahmen und so die Abstimmung zwischen dem VSR-Modell und seinem vorgelagerten Generator sicherstellen. Zweitens liefern wir wichtige Erkenntnisse zum Verhalten von VSR-Modellen durch systematische Analysen von (1) Zeitschritt-Sampling-Strategien und (2) den Auswirkungen von Rauschaugmentationen auf niedrig aufgelöste (LR) Eingaben. Diese Erkenntnisse leiten direkt unsere architektonischen und Trainingsinnovationen. Schließlich führen wir verschachtelte temporale Einheiten und sparsame lokale Aufmerksamkeit ein, um effizientes Training und Inferenz zu ermöglichen und den Rechenaufwand erheblich zu reduzieren. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Frameworks gegenüber bestehenden Methoden, wobei Ablationsstudien die Wirksamkeit jedes Designentscheids bestätigen. Unsere Arbeit etabliert eine einfache, aber effektive Baseline für die kaskadierte Video-Super-Resolution-Generierung und bietet praktische Einblicke, um zukünftige Fortschritte in effizienten kaskadierten Synthesesystemen zu leiten.

Skalierung von spekulativer Dekodierung mit Lookahead-Reasoning
Scaling Speculative Decoding with Lookahead Reasoning

Jun 24

ByYichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang

Reasoning-Modelle zeichnen sich dadurch aus, dass sie lange Ketten von Gedankengängen erzeugen, aber die Dekodierung der daraus resultierenden Tausenden von Tokens ist langsam. Token-level spekulative Dekodierung (SD) hilft dabei, aber ihr Nutzen ist begrenzt, da die Wahrscheinlichkeit, dass ein gesamter Gamma-Token-Rateversuch korrekt ist, exponentiell abnimmt, wenn Gamma wächst. Dies bedeutet, dass die Zuweisung von mehr Rechenleistung für längere Token-Entwürfe auf eine algorithmische Obergrenze stößt – was die Beschleunigung bescheiden und hardwareunabhängig macht. Wir heben diese Grenze mit Lookahead Reasoning an, das eine zweite, schrittweise Ebene von Parallelität nutzt. Unsere zentrale Erkenntnis ist, dass Reasoning-Modelle schrittweise arbeiten und jeder Schritt nur semantisch korrekt sein muss, nicht exakt tokenübereinstimmend. Bei Lookahead Reasoning schlägt ein leichtgewichtiges Entwurfsmodell mehrere zukünftige Schritte vor; das Zielmodell erweitert jeden Vorschlag in einem gebündelten Durchlauf, und ein Verifizierer behält semantisch korrekte Schritte bei, während das Zielmodell alle fehlgeschlagenen Schritte neu generiert. Token-level SD arbeitet weiterhin innerhalb jedes Reasoning-Schritts, sodass sich die beiden Ebenen der Parallelität multiplizieren. Wir zeigen, dass Lookahead Reasoning den maximalen Beschleunigungsfaktor von SD sowohl theoretisch als auch empirisch erhöht. Über GSM8K, AIME und andere Benchmarks hinweg verbessert Lookahead Reasoning die Beschleunigung von SD von 1,4x auf 2,1x, während die Antwortqualität erhalten bleibt, und seine Beschleunigung skaliert besser mit zusätzlicher GPU-Durchsatzleistung. Unser Code ist verfügbar unter https://github.com/hao-ai-lab/LookaheadReasoning.

USAD: Universelle Sprach- und Audio-Repräsentation durch Distillation
USAD: Universal Speech and Audio Representation via Distillation

Jun 23

ByHeng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu

Self-supervised Learning (SSL) hat die Art und Weise, wie Audio-Repräsentationen erlernt werden, revolutioniert, doch bleiben Modelle oft domänenspezifisch und konzentrieren sich entweder auf Sprach- oder Nicht-Sprach-Aufgaben. In dieser Arbeit präsentieren wir Universal Speech and Audio Distillation (USAD), einen einheitlichen Ansatz für das Erlernen von Audio-Repräsentationen, der verschiedene Audio-Typen – Sprache, Klänge und Musik – in einem einzigen Modell integriert. USAD nutzt effiziente Layer-to-Layer-Distillation von domänenspezifischen SSL-Modellen, um ein Studentenmodell auf einem umfassenden Audio-Datensatz zu trainieren. USAD bietet wettbewerbsfähige Leistung über verschiedene Benchmarks und Datensätze hinweg, einschließlich Frame- und Instanz-Level-Sprachverarbeitungsaufgaben, Audio-Tagging und Klassifikation von Klängen, und erzielt nahezu state-of-the-art Ergebnisse mit einem einzigen Encoder auf den SUPERB- und HEAR-Benchmarks.

Verloren im Mix: Bewertung des Verständnisses von Code-Switching durch LLMs
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

Jun 16

ByAmr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang

Code-Switching (CSW) bezeichnet den Wechsel zwischen zwei oder mehr Sprachen innerhalb eines einzelnen Diskurses. Dieses Phänomen ist in multilingualen Gemeinschaften weit verbreitet und zunehmend in Online-Inhalten präsent, wo Nutzer im Alltag natürlicherweise Sprachen vermischen. Infolgedessen sind Large Language Models (LLMs), die mittlerweile zentral für die Verarbeitung und Generierung von Inhalten sind, häufig mit code-switched Eingaben konfrontiert. Angesichts ihrer weitreichenden Nutzung ist es entscheidend zu verstehen, wie LLMs derart gemischtsprachige Texte verarbeiten und interpretieren. Diese Arbeit präsentiert eine systematische Evaluierung des Verständnisses von LLMs unter Code-Switching, indem CSW-Varianten etablierter Verständnis- und Schlussfolgerungs-Benchmarks generiert werden. Während eine Verschlechterung offensichtlich ist, wenn fremde Token englische Texte unterbrechen – selbst unter linguistischen Einschränkungen –, führt die Einbettung von Englisch in andere Sprachen oft zu einem verbesserten Verständnis. Obwohl Prompting gemischte Ergebnisse liefert, bietet Fine-Tuning einen stabileren Weg zur Minderung von Verschlechterungen.

Orthogonales Feintuning skalierbar gemacht
Orthogonal Finetuning Made Scalable

Jun 24

ByZeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf

Orthogonales Finetuning (OFT) bietet eine hochgradig parameter-effiziente Anpassung, während es katastrophales Vergessen verhindert, doch sein hoher Laufzeit- und Speicherbedarf schränkt den praktischen Einsatz ein. Wir identifizieren den zentralen Rechenengpass in OFT als seine gewichts-zentrierte Implementierung, die auf kostspieligen Matrix-Matrix-Multiplikationen mit kubischer Komplexität beruht. Um dies zu überwinden, schlagen wir OFTv2 vor, eine input-zentrierte Neuformulierung, die stattdessen Matrix-Vektor-Multiplikationen (d.h. matrixfreie Berechnung) verwendet und so die Rechenkosten auf quadratische Komplexität reduziert. Weiterhin führen wir die Cayley-Neumann-Parametrisierung ein, eine effiziente orthogonale Parametrisierung, die die Matrixinversion in der Cayley-Transformation durch eine abgeschnittene Neumann-Reihe approximiert. Diese Modifikationen ermöglichen es OFTv2, bis zu 10x schnellere Trainingszeiten und 3x geringeren GPU-Speicherverbrauch zu erreichen, ohne die Leistung zu beeinträchtigen. Zusätzlich erweitern wir OFTv2, um das Finetuning quantisierter Basismodelle zu unterstützen, und zeigen, dass es das beliebte QLoRA in Bezug auf Trainingsstabilität, Effizienz und Speicherverbrauch übertrifft.

Warum haben Open-Source-LLMs Schwierigkeiten mit der Datenanalyse? Eine systematische empirische Studie
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Jun 24

ByYuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

Große Sprachmodelle (LLMs) bergen Potenzial in der Automatisierung von Datenanalysen, doch Open-Source-Modelle stoßen in solchen Denk-intensiven Szenarien auf erhebliche Einschränkungen. In dieser Arbeit untersuchen wir Strategien, um die Datenanalysefähigkeiten von Open-Source-LLMs zu verbessern. Durch die Zusammenstellung eines Ausgangsdatensatzes mit vielfältigen, realistischen Szenarien bewerten wir Modelle in drei Dimensionen: Datenverständnis, Codegenerierung und strategische Planung. Unsere Analyse zeigt drei zentrale Erkenntnisse: (1) Die Qualität der strategischen Planung ist der primäre Leistungsindikator für Modelle; (2) Interaktionsdesign und Aufgabenkomplexität beeinflussen die Denkfähigkeiten maßgeblich; (3) Datenqualität hat einen größeren Einfluss auf die Leistung als Diversität. Wir nutzen diese Erkenntnisse, um eine Methode zur Datensynthese zu entwickeln, die signifikante Verbesserungen in den analytischen Denkfähigkeiten von Open-Source-LLMs demonstriert.

Verbesserung der progressiven Generierung mit zerlegbarem Fluss-Matching
Improving Progressive Generation with Decomposable Flow Matching

Jun 24

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

Die Erzeugung hochdimensionaler visueller Modalitäten ist eine rechenintensive Aufgabe. Eine gängige Lösung ist die progressive Generierung, bei der die Ausgaben in einer grob-zu-fein spektralen autoregressiven Weise synthetisiert werden. Während Diffusionsmodelle von der grob-zu-fein Natur der Entrauschung profitieren, werden explizite mehrstufige Architekturen selten eingesetzt. Diese Architekturen haben die Komplexität des Gesamtansatzes erhöht, was die Notwendigkeit einer benutzerdefinierten Diffusionsformulierung, zerlegungsabhängiger Stufenübergänge, ad-hoc-Sampler oder einer Modellkaskade mit sich bringt. Unser Beitrag, Decomposable Flow Matching (DFM), ist ein einfaches und effektives Framework für die progressive Erzeugung visueller Medien. DFM wendet Flow Matching unabhängig auf jeder Ebene einer benutzerdefinierten Mehrskalenrepräsentation (wie z.B. einer Laplace-Pyramide) an. Wie unsere Experimente zeigen, verbessert unser Ansatz die visuelle Qualität sowohl für Bilder als auch für Videos und erzielt im Vergleich zu früheren mehrstufigen Frameworks überlegene Ergebnisse. Auf Imagenet-1k 512px erreicht DFM eine Verbesserung der FDD-Werte um 35,2 % gegenüber der Basisarchitektur und um 26,4 % gegenüber der leistungsstärksten Baseline bei gleichem Trainingsaufwand. Bei der Feinabstimmung großer Modelle wie FLUX zeigt DFM eine schnellere Konvergenzgeschwindigkeit zur Trainingsverteilung. Entscheidend ist, dass all diese Vorteile mit einem einzigen Modell, architektonischer Einfachheit und minimalen Modifikationen an bestehenden Trainingspipelines erreicht werden.

KnowRL: Erforschung von wissensbasiertem Reinforcement Learning für Faktizität
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

Jun 24

ByBaochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Große Sprachmodelle (LLMs), insbesondere langsam denkende Modelle, zeigen oft starke Halluzinationen, indem sie falsche Inhalte ausgeben, da sie während des Schlussfolgerns nicht in der Lage sind, Wissensgrenzen genau zu erkennen. Während Reinforcement Learning (RL) die Fähigkeiten zum komplexen Schlussfolgern verbessern kann, fehlt seinem ergebnisorientierten Belohnungsmechanismus oft eine faktische Überwachung des Denkprozesses, was das Halluzinationsproblem weiter verschärft. Um die hohe Halluzinationsrate in langsam denkenden Modellen zu adressieren, schlagen wir Knowledge-enhanced RL, KnowRL, vor. KnowRL leitet Modelle an, faktenbasiertes langsames Denken durchzuführen, indem es eine Faktizitätsbelohnung, basierend auf Wissensüberprüfung, in den RL-Trainingsprozess integriert und ihnen hilft, ihre Wissensgrenzen zu erkennen. Diese gezielte faktische Eingabe während des RL-Trainings ermöglicht es dem Modell, faktenbasierte Schlussfolgerungsstrategien zu erlernen und zu verinnerlichen. Durch die direkte Belohnung der Einhaltung von Fakten innerhalb der Denkschritte fördert KnowRL einen zuverlässigeren Denkprozess. Experimentelle Ergebnisse auf drei Halluzinationsbewertungsdatensätzen und zwei Schlussfolgerungsbewertungsdatensätzen zeigen, dass KnowRL Halluzinationen in langsam denkenden Modellen effektiv reduziert, während ihre ursprünglich starken Schlussfolgerungsfähigkeiten erhalten bleiben. Unser Code ist verfügbar unter https://github.com/zjunlp/KnowRL.

Intelligente Betriebs- und Wartungsverfahren sowie Optimierung von Vorhersagemodellen zur Steigerung der Effizienz der Windenergieerzeugung
Intelligent Operation and Maintenance and Prediction Model Optimization for Improving Wind Power Generation Efficiency

Jun 19

ByXun Liu, Xiaobin Wu, Jiaqi He, Rajan Das Gupta

Diese Studie untersucht die Effektivität von Predictive-Maintenance-Modellen und die Optimierung intelligenter Betriebs- und Wartungssysteme (O&M) zur Steigerung der Effizienz der Windenergieerzeugung. Durch qualitative Forschung wurden strukturierte Interviews mit fünf Windpark-Ingenieuren und Wartungsmanagern durchgeführt, die jeweils über umfangreiche Erfahrungen in der Turbinenwartung verfügen. Mithilfe einer thematischen Analyse zeigte die Studie, dass Predictive-Maintenance-Modelle zwar effektiv Ausfallzeiten reduzieren, indem sie größere Fehler identifizieren, jedoch oft Schwierigkeiten haben, kleinere, graduelle Ausfälle zu erkennen. Zu den wichtigsten Herausforderungen zählen falsch positive Ergebnisse, Sensorstörungen und Schwierigkeiten bei der Integration neuer Modelle in ältere Turbinensysteme. Fortschrittliche Technologien wie digitale Zwillinge, SCADA-Systeme und Zustandsüberwachung haben die Turbinenwartungspraktiken erheblich verbessert. Dennoch bedürfen diese Technologien weiterer Verbesserungen, insbesondere in der KI-Verfeinerung und der Echtzeit-Datenintegration. Die Ergebnisse unterstreichen die Notwendigkeit einer kontinuierlichen Weiterentwicklung, um die Leistung von Windturbinen vollständig zu optimieren und die breitere Nutzung erneuerbarer Energien zu unterstützen.

Mem4Nav: Verbesserung der visuell-sprachlichen Navigation in urbanen Umgebungen mit einem hierarchischen räumlich-kognitiven Langzeit-Kurzzeit-Gedächtnissystem
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Jun 24

ByLixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li

Vision-and-Language Navigation (VLN) in großräumigen urbanen Umgebungen erfordert, dass verkörperte Agenten sprachliche Anweisungen in komplexen Szenen verankern und relevante Erfahrungen über längere Zeiträume hinweg abrufen können. Bisherige modulare Pipelines bieten Interpretierbarkeit, mangeln jedoch an einem einheitlichen Gedächtnis, während end-to-end (M)LLM-Agenten zwar in der Fusion von Vision und Sprache hervorragend sind, jedoch durch feste Kontextfenster und implizite räumliche Schlussfolgerungen eingeschränkt bleiben. Wir stellen Mem4Nav vor, ein hierarchisches räumlich-kognitives Langzeit-Kurzzeit-Gedächtnissystem, das jeden VLN-Backbone erweitern kann. Mem4Nav kombiniert ein spärliches Oktree für die feinkörnige Voxel-Indizierung mit einem semantischen Topologiegraphen für die Konnektivität von Landmarken auf hoher Ebene und speichert beide in trainierbaren Gedächtnis-Tokens, die über einen reversiblen Transformer eingebettet werden. Das Langzeitgedächtnis (LTM) komprimiert und behält historische Beobachtungen sowohl auf Oktree- als auch auf Graphenknoten bei, während das Kurzzeitgedächtnis (STM) aktuelle multimodale Einträge in relativen Koordinaten zwischenspeichert, um Echtzeit-Hindernisvermeidung und lokale Planung zu ermöglichen. Bei jedem Schritt schneidet die STM-Abrufung den dynamischen Kontext scharf zu, und wenn eine tiefere Historie benötigt wird, werden LTM-Tokens verlustfrei decodiert, um vergangene Einbettungen zu rekonstruieren. Ausgewertet auf Touchdown und Map2Seq über drei Backbones (modular, state-of-the-art VLN mit prompt-basiertem LLM und state-of-the-art VLN mit gestaffelter Aufmerksamkeit MLLM), erzielt Mem4Nav 7-13 Prozentpunkte Gewinne bei der Aufgabenabschlussrate, eine ausreichende Reduzierung der SPD und eine Verbesserung des nDTW um >10 Prozentpunkte. Ablationen bestätigen die Unverzichtbarkeit sowohl der hierarchischen Karte als auch der dualen Gedächtnismodule. Unsere Codes sind über https://github.com/tsinghua-fib-lab/Mem4Nav quelloffen verfügbar.

Quantifizierung von Fairness in LLMs über Tokens hinaus: Eine semantische und statistische Perspektive
Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective

Jun 23

ByWeijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy

Große Sprachmodelle (LLMs) generieren oft Antworten mit inhärenten Verzerrungen, was ihre Zuverlässigkeit in realen Anwendungen untergräbt. Bestehende Evaluierungsmethoden übersehen häufig Verzerrungen in langen Antworten und die intrinsische Variabilität der LLM-Ausgaben. Um diese Herausforderungen zu bewältigen, schlagen wir FiSCo (Fine-grained Semantic Computation) vor, ein neuartiges statistisches Framework zur Bewertung der Fairness auf Gruppenebene in LLMs, indem es subtile semantische Unterschiede in langen Antworten über demografische Gruppen hinweg erkennt. Im Gegensatz zu früheren Arbeiten, die sich auf Sentiment oder Token-Vergleiche konzentrieren, geht FiSCo über oberflächliche Analysen hinaus, indem es auf der Behauptungsebene operiert und Entailment-Prüfungen nutzt, um die Konsistenz der Bedeutung über Antworten hinweg zu bewerten. Wir zerlegen Modellausgaben in semantisch unterschiedliche Behauptungen und wenden statistische Hypothesentests an, um inter- und intra-gruppale Ähnlichkeiten zu vergleichen, was eine robuste Erkennung subtiler Verzerrungen ermöglicht. Wir formalisieren eine neue Definition der gruppenbezogenen kontrafaktischen Fairness und validieren FiSCo anhand von sowohl synthetischen als auch von Menschen annotierten Datensätzen, die Geschlecht, Rasse und Alter abdecken. Experimente zeigen, dass FiSCo nuancenreiche Verzerrungen zuverlässiger identifiziert, während es den Einfluss der stochastischen Variabilität von LLMs reduziert und verschiedene Evaluierungsmetriken übertrifft.