HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

Selbstbelohnende Korrektur für mathematisches Denken
Self-rewarding correction for mathematical reasoning

Feb 26

ByWei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang

Wir untersuchen selbstbelohnende Reasoning-Modelle für große Sprachmodelle (LLMs), die während der Inferenzzeit gleichzeitig schrittweise Argumentationen generieren und die Korrektheit ihrer Ausgaben bewerten können – ohne externes Feedback. Dieser integrierte Ansatz ermöglicht es einem einzelnen Modell, seinen Reasoning-Prozess eigenständig zu steuern, was rechnerische Vorteile für die Modellbereitstellung bietet. Wir konzentrieren uns insbesondere auf die repräsentative Aufgabe der Selbstkorrektur, bei der Modelle Fehler in ihren Antworten autonom erkennen, Ausgaben überarbeiten und entscheiden, wann iterative Verfeinerungsschleifen beendet werden sollen. Um dies zu ermöglichen, schlagen wir einen zweistufigen algorithmischen Rahmen vor, um selbstbelohnende Reasoning-Modelle ausschließlich mit selbstgenerierten Daten zu konstruieren. In der ersten Stufe verwenden wir sequenzielles Rejection Sampling, um lange Chain-of-Thought-Trajektorien zu synthetisieren, die sowohl Selbstbelohnungs- als auch Selbstkorrekturmechanismen integrieren. Das Feinabstimmen von Modellen anhand dieser kuratierten Daten ermöglicht es ihnen, die Muster der Selbstbelohnung und Selbstkorrektur zu erlernen. In der zweiten Stufe verbessern wir die Fähigkeit der Modelle, die Genauigkeit von Antworten zu bewerten und Ausgaben zu verfeinern, durch Reinforcement Learning mit regelbasierten Signalen. Experimente mit Llama-3 und Qwen-2.5 zeigen, dass unser Ansatz die intrinsischen Selbstkorrekturfähigkeiten übertrifft und eine Leistung erzielt, die mit Systemen vergleichbar ist, die auf externen Belohnungsmodellen basieren.

MedVLM-R1: Förderung der medizinischen Denkfähigkeit von Vision-Language-Modellen (VLMs) durch Reinforcement Learning
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Feb 26

ByJiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert

Das Schließen von Schlussfolgerungen stellt eine entscheidende Herausforderung für die Weiterentwicklung der medizinischen Bildanalyse dar, wobei Transparenz und Vertrauenswürdigkeit eine zentrale Rolle für das Vertrauen der Kliniker sowie die regulatorische Zulassung spielen. Obwohl medizinische visuelle Sprachmodelle (VLMs) vielversprechend für radiologische Aufgaben sind, liefern die meisten bestehenden VLMs lediglich endgültige Antworten, ohne die zugrunde liegende Schlussfolgerung offenzulegen. Um diese Lücke zu schließen, stellen wir MedVLM-R1 vor, ein medizinisches VLM, das explizit natürliche Sprachbegründungen erzeugt, um Transparenz und Vertrauenswürdigkeit zu erhöhen. Anstatt auf überwachtes Feinabstimmen (SFT) zurückzugreifen, das häufig zu einer Überanpassung an die Trainingsverteilungen neigt und keine echten Schlussfolgerungen fördert, nutzt MedVLM-R1 ein Reinforcement-Learning-Framework, das das Modell dazu anregt, menscheninterpretierbare Begründungspfade zu entdecken, ohne dabei auf Referenzen für die Schlussfolgerung zurückzugreifen. Trotz begrenzter Trainingsdaten (600 visuelle Frage-Antwort-Beispiele) und Modellparameter (2 Milliarden) steigert MedVLM-R1 die Genauigkeit von 55,11 % auf 78,22 % über MRI-, CT- und Röntgen-Benchmarks hinweg und übertrifft dabei größere Modelle, die mit über einer Million Beispielen trainiert wurden. Es zeigt zudem eine robuste Domänengeneralisierung bei Aufgaben außerhalb der Trainingsverteilung. Durch die Vereinigung von medizinischer Bildanalyse mit expliziten Schlussfolgerungen markiert MedVLM-R1 einen entscheidenden Schritt hin zu vertrauenswürdiger und interpretierbarer KI in der klinischen Praxis.

R2-T2: Umleitung während der Testzeit für Multimodale Mixture-of-Experts
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

Feb 27

ByZhongyang Li, Ziyue Li, Tianyi Zhou

In großen multimodalen Modellen (LMMs) ist die Wahrnehmung nicht-sprachlicher Modalitäten (z. B. visuelle Repräsentationen) in der Regel nicht auf dem Niveau der leistungsstarken Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs), was die Leistung von LMMs bei anspruchsvollen Downstream-Aufgaben beeinträchtigt. Diese Schwäche wurde kürzlich dadurch gemildert, dass der Vision-Encoder durch ein Mixture-of-Experts (MoE) ersetzt wurde, das die für verschiedene Downstream-Aufgaben erforderlichen reichhaltigen, mehrgranularen und diversen Repräsentationen bereitstellt. Die Leistung des multimodalen MoE hängt weitgehend von seinem Router ab, der die Repräsentationen verschiedener Experten für jede Eingabe neu gewichtet und mischt. Wir stellen jedoch fest, dass der end-to-end trainierte Router nicht immer die optimalen Routing-Gewichte für jedes Testbeispiel erzeugt. Um diese Lücke zu schließen, schlagen wir eine neuartige und effiziente Methode „Re-Routing in Test-Time“ (R2-T2) vor, die den Vektor der Routing-Gewichte zur Testzeit lokal optimiert, indem er in Richtung der Vektoren korrekt vorhergesagter Beispiele in der Nachbarschaft des Testbeispiels verschoben wird. Wir schlagen drei R2-T2-Strategien mit unterschiedlichen Optimierungszielen und Nachbarschaftssuchräumen vor. R2-T2 verbessert die Leistung modernster LMMs durchgängig und erheblich auf anspruchsvollen Benchmarks für verschiedene Aufgaben, ohne dass Parameter des Basismodells trainiert werden müssen.

Model with Enhanced Contextual Understanding Abstract: In this paper, we introduce NeoBERT, a novel transformer-based language model that builds upon the BERT architecture while addressing its limitations in contextual comprehension. NeoBERT incorporates three key innovations: (1) a dynamic attention mechanism that adapts to varying context lengths, (2) a hierarchical token representation that captures both local and global dependencies, and (3) a knowledge distillation framework that enhances the model's ability to generalize across domains. Extensive experiments on benchmark datasets demonstrate that NeoBERT outperforms existing BERT variants in tasks requiring deep contextual understanding, such as question answering and text summarization. Our results suggest that NeoBERT represents a significant step forward in transformer-based language modeling, offering improved performance while maintaining computational efficiency. Keywords: Natural Language Processing, Transformer Models, Contextual Understanding, Knowledge DistillationNeoBERT: Ein BERT-Modell der nächsten Generation mit verbessertem kontextuellem Verständnis Zusammenfassung: In diesem Artikel stellen wir NeoBERT vor, ein neuartiges transformer-basiertes Sprachmodell, das auf der BERT-Architektur aufbaut und gleichzeitig deren Einschränkungen im kontextuellen Verständnis adressiert. NeoBERT integriert drei wesentliche Innovationen: (1) einen dynamischen Aufmerksamkeitsmechanismus, der sich an unterschiedliche Kontextlängen anpasst, (2) eine hierarchische Token-Darstellung, die sowohl lokale als auch globale Abhängigkeiten erfasst, und (3) ein Wissensdistillations-Framework, das die Fähigkeit des Modells zur domänenübergreifenden Generalisierung verbessert. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass NeoBERT bestehende BERT-Varianten bei Aufgaben, die ein tiefes kontextuelles Verständnis erfordern, wie z.B. Fragebeantwortung und Textzusammenfassung, übertrifft. Unsere Ergebnisse deuten darauf hin, dass NeoBERT einen bedeutenden Fortschritt im transformer-basierten Sprachmodellierung darstellt, der eine verbesserte Leistung bei gleichzeitiger Beibehaltung der Recheneffizienz bietet. Schlüsselwörter: Natürliche Sprachverarbeitung, Transformer-Modelle, Kontextuelles Verständnis, Wissensdistillation
NeoBERT: A Next-Generation BERT

Feb 26

ByLola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar

Jüngste Innovationen in Architektur, Pre-Training und Fine-Tuning haben zu den bemerkenswerten Fähigkeiten im In-Context-Lernen und -Schlussfolgern großer autoregressiver Sprachmodelle wie LLaMA und DeepSeek geführt. Im Gegensatz dazu haben Encoder wie BERT und RoBERTa trotz ihrer grundlegenden Bedeutung für viele nachgelagerte NLP-Anwendungen nicht denselben Fortschritt erlebt. Um diese Lücke zu schließen, stellen wir NeoBERT vor, einen Encoder der nächsten Generation, der die Fähigkeiten bidirektionaler Modelle neu definiert, indem er modernste Fortschritte in Architektur, zeitgemäße Daten und optimierte Pre-Training-Methoden integriert. NeoBERT ist für eine nahtlose Übernahme konzipiert: Es dient als Plug-and-Play-Ersatz für bestehende Basismodelle, basiert auf einem optimalen Tiefen-Breiten-Verhältnis und nutzt eine erweiterte Kontextlänge von 4.096 Tokens. Trotz seines kompakten Footprints von 250M Parametern erzielt es Spitzenergebnisse auf dem umfangreichen MTEB-Benchmark und übertrifft BERT large, RoBERTa large, NomicBERT und ModernBERT unter identischen Fine-Tuning-Bedingungen. Zusätzlich bewerten wir rigoros die Auswirkungen jeder Modifikation auf GLUE und entwickeln ein einheitliches Fine-Tuning- und Evaluierungsframework für MTEB. Wir veröffentlichen den gesamten Code, Daten, Checkpoints und Trainingsskripte, um Forschung und praktische Anwendung zu beschleunigen.

LongRoPE2: Nahezu verlustfreie Skalierung des Kontextfensters für LLMs
LongRoPE2: Near-Lossless LLM Context Window Scaling

Feb 27

ByNing Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang

LongRoPE2 ist ein neuartiger Ansatz, der das effektive Kontextfenster vortrainierter großer Sprachmodelle (LLMs) auf die Zielgröße erweitert, während die Leistung auf dem ursprünglichen kürzeren Kontextfenster erhalten bleibt. Dies wird durch drei Beiträge erreicht: (1) eine Hypothese, dass unzureichendes Training in höheren RoPE-Dimensionen zu den anhaltenden Out-of-Distribution (OOD)-Problemen beiträgt, die bei bestehenden Methoden beobachtet werden; (2) ein effektiver RoPE-Reskalierungsalgorithmus, der eine evolutionäre Suche nutzt, die durch „Needle-driven“-Perplexität geleitet wird, um das Problem des unzureichenden Trainings zu adressieren; (3) ein gemischtes Kontextfenster-Trainingsansatz, der die Modellgewichte feinabstimmt, um reskalierte RoPE für lange Kontextsequenzen zu übernehmen, während die Kurzkontextleistung mit der ursprünglichen RoPE erhalten bleibt. Umfangreiche Experimente mit LLaMA3-8B und Phi3-mini-3.8B über verschiedene Benchmarks bestätigen die Hypothese und demonstrieren die Wirksamkeit von LongRoPE2. Bemerkenswerterweise erweitert LongRoPE2 LLaMA3-8B, um eine effektive Kontextlänge von 128K zu erreichen, während über 98,5 % der Kurzkontextleistung erhalten bleiben, wobei nur 10B Tokens verwendet werden – 80-mal weniger als der Ansatz von Meta, der die Zielkontextlänge nicht erreicht. Der Code wird unter https://github.com/microsoft/LongRoPE verfügbar sein.

UniTok: Ein einheitlicher Tokenizer für visuelle Erzeugung und Verständnis
UniTok: A Unified Tokenizer for Visual Generation and Understanding

Feb 27

ByChuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi

Die Repräsentationsdiskrepanz zwischen visueller Generierung und Verständnis stellt eine kritische Lücke bei der Integration dieser Fähigkeiten in ein einheitliches Framework dar. Um diese Lücke zu überbrücken, führen wir UniTok ein, einen diskreten visuellen Tokenizer, der feingranulare Details für die Generierung kodiert, während er gleichzeitig hochrangige Semantik für das Verständnis erfasst. Obwohl aktuelle Studien gezeigt haben, dass diese Ziele zu Verlustkonflikten im Training führen können, zeigen wir, dass der zugrunde liegende Engpass auf der begrenzten Repräsentationskapazität diskreter Token beruht. Wir adressieren dies durch die Einführung einer Multi-Codebook-Quantisierung, die die Vektorquantisierung mit mehreren unabhängigen Sub-Codebooks aufteilt, um den latenten Merkmalsraum zu erweitern, während Instabilitäten im Training durch zu große Codebooks vermieden werden. Unsere Methode erhöht die Obergrenze einheitlicher diskreter Tokenizer signifikant, sodass sie domänenspezifische kontinuierliche Tokenizer übertreffen oder sogar übertreffen können. Beispielsweise erreicht UniTok einen bemerkenswerten rFID-Wert von 0,38 (im Vergleich zu 0,87 für SD-VAE) und eine Zero-Shot-Genauigkeit von 78,6 % (im Vergleich zu 76,2 % für CLIP) auf ImageNet. Unser Code ist verfügbar unter https://github.com/FoundationVision/UniTok.

Multimodale Repräsentationsausrichtung für die Bildgenerierung: Text-Bild-Interleaved-Steuerung ist einfacher als gedacht
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

Feb 27

ByLiang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang

Das Feld der fortschrittlichen Text-zu-Bild-Generierung erlebt derzeit die Entstehung einheitlicher Frameworks, die leistungsstarke Text-Encoder wie CLIP und T5 mit Diffusion Transformer-Backbones integrieren. Obwohl es Bemühungen gab, Ausgabebilder mit zusätzlichen Bedingungen wie Canny- und Tiefenkarten zu steuern, fehlt noch ein umfassendes Framework für beliebige Text-Bild-verflochtene Steuerung. Diese Lücke wird besonders deutlich, wenn versucht wird, Konzepte oder visuelle Elemente aus mehreren Bildern im Generierungsprozess zu kombinieren. Um diese Lücke zu schließen, haben wir vorläufige Experimente durchgeführt, die zeigen, dass große multimodale Modelle (LMMs) einen effektiven gemeinsamen Repräsentationsraum bieten, in dem Bild und Text gut ausgerichtet werden können, um als Bedingung für externe Diffusionsmodelle zu dienen. Basierend auf dieser Erkenntnis schlagen wir Dream Engine vor, ein effizientes und einheitliches Framework, das für beliebige Text-Bild-verflochtene Steuerung in Bildgenerierungsmodellen entwickelt wurde. Aufbauend auf leistungsstarken Text-zu-Bild-Modellen wie SD3.5 ersetzen wir die ursprünglichen reinen Text-Encoder durch die Einbindung vielseitiger multimodaler Informations-Encoder wie QwenVL. Unser Ansatz nutzt ein zweistufiges Trainingsparadigma, bestehend aus gemeinsamer Text-Bild-Ausrichtung und multimodaler verflochtener Instruktionsfeinabstimmung. Unsere Experimente zeigen, dass diese Trainingsmethode effektiv ist und eine Gesamtpunktzahl von 0,69 auf dem GenEval-Benchmark erreicht, was der Leistung von state-of-the-art Text-zu-Bild-Modellen wie SD3.5 und FLUX entspricht.

FINEREASON: Bewertung und Verbesserung des gezielten Denkens von LLMs durch reflektives Rätsellösen
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

Feb 27

ByGuizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong

Viele anspruchsvolle Denkaufgaben erfordern nicht nur schnelle, intuitive Reaktionen, sondern einen durchdachteren, mehrstufigen Ansatz. Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) verdeutlichen einen wichtigen Wandel von der „System 1“-Methode der schnellen Reaktionen hin zum „System 2“-Stil des reflektierenden und korrigierenden Problemlösens. Allerdings stützen sich aktuelle Benchmarks stark auf die Genauigkeit der Endantworten, wodurch viele der Zwischenschritte der Modelllogik ungeprüft bleiben. Dies versäumt es, die Fähigkeit des Modells zur Reflexion und Korrektur von Fehlern im Denkprozess zu bewerten. Um diese Lücke zu schließen, stellen wir FINEREASON vor, einen Logikrätsel-Benchmark zur feingranularen Bewertung der Denkfähigkeiten von LLMs. Jedes Rätsel lässt sich in atomare Schritte zerlegen, was es ideal für eine strenge Überprüfung der Zwischenergebnisse macht. Darauf aufbauend führen wir zwei Aufgaben ein: Zustandsprüfung und Zustandsübergang, um umfassend zu bewerten, wie Modelle die aktuelle Situation einschätzen und den nächsten Schritt planen. Um die Forschung weiter zu unterstützen, stellen wir außerdem einen Rätsel-Trainingsdatensatz bereit, der darauf abzielt, die Leistung bei allgemeinen mathematischen Aufgaben zu verbessern. Wir zeigen, dass Modelle, die mit unseren Daten zur Zustandsprüfung und -übergang trainiert wurden, eine Steigerung der mathematischen Denkfähigkeit von bis zu 5,1 % auf GSM8K erreichen.

CODESYNC: Synchronisierung großer Sprachmodelle mit dynamischer Code-Entwicklung im großen Maßstab
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

Feb 23

ByChenlong Wang, Zhaoyang Chu, Zhengxiang Cheng, Xuyi Yang, Kaiyue Qiu, Yao Wan, Zhou Zhao, Xuanhua Shi, Dongping Chen

Große Sprachmodelle (LLMs) haben in der Softwareentwicklung außergewöhnliche Leistungen gezeigt, stehen jedoch vor Herausforderungen bei der Anpassung an sich kontinuierlich weiterentwickelndes Code-Wissen, insbesondere im Hinblick auf die häufigen Aktualisierungen von APIs Drittanbieter-Bibliotheken. Diese Einschränkung, die sich aus statischen Vorab-Trainingsdatensätzen ergibt, führt oft zu nicht ausführbarem Code oder Implementierungen mit suboptimaler Sicherheit und Effizienz. Zu diesem Zweck stellt dieses Papier CODESYNC vor, eine Daten-Engine zur Identifizierung veralteter Codemuster und zur Sammlung von Echtzeit-Code-Wissen-Updates aus Python-Bibliotheken Dritter. Aufbauend auf CODESYNC entwickeln wir CODESYNCBENCH, einen umfassenden Benchmark zur Bewertung der Fähigkeit von LLMs, mit der Code-Evolution Schritt zu halten, der reale Aktualisierungen für 220 APIs aus sechs Python-Bibliotheken abdeckt. Unser Benchmark bietet 3.300 Testfälle über drei Evaluierungsaufgaben hinweg sowie ein aktualisierungsbewusstes Instruktions-Tuning-Dataset, das aus 2.200 Trainingsbeispielen besteht. Umfangreiche Experimente mit 14 modernsten LLMs zeigen, dass diese mit der dynamischen Code-Evolution zu kämpfen haben, selbst mit der Unterstützung fortschrittlicher Methoden zur Wissensaktualisierung (z. B. DPO, ORPO und SimPO). Wir glauben, dass unser Benchmark eine solide Grundlage für die Entwicklung effektiverer Methoden zur Echtzeit-Aktualisierung von Code-Wissen in der Zukunft bieten kann. Der experimentelle Code und das Dataset sind öffentlich verfügbar unter: https://github.com/Lucky-voyage/Code-Sync.

FlexiDiT: Ihr Diffusion Transformer kann mühelos hochwertige Samples mit weniger Rechenleistung erzeugen
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute

Feb 27

BySotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld

Trotz ihrer bemerkenswerten Leistung werden moderne Diffusion Transformers durch erhebliche Ressourcenanforderungen während der Inferenz behindert, die sich aus dem festen und großen Rechenaufwand für jeden Denoising-Schritt ergeben. In dieser Arbeit überdenken wir das konventionelle statische Paradigma, das ein festes Rechenbudget pro Denoising-Iteration vorsieht, und schlagen stattdessen eine dynamische Strategie vor. Unser einfaches und probeneffizientes Framework ermöglicht es, vortrainierte DiT-Modelle in flexible Modelle – genannt FlexiDiT – umzuwandeln, die es ihnen erlauben, Eingaben mit variierenden Rechenbudgets zu verarbeiten. Wir zeigen, wie ein einziges flexibles Modell Bilder ohne Qualitätseinbußen erzeugen kann, während der erforderliche FLOP-Aufwand im Vergleich zu ihren statischen Gegenstücken um mehr als 40\% reduziert wird, sowohl für klassen- als auch für textkonditionierte Bildgenerierung. Unsere Methode ist allgemein und unabhängig von Eingabe- und Konditionierungsmodalitäten. Wir zeigen, wie unser Ansatz problemlos auf die Videogenerierung erweitert werden kann, wobei FlexiDiT-Modelle Proben mit bis zu 75\% weniger Rechenaufwand erzeugen, ohne die Leistung zu beeinträchtigen.

Mobius: Generierung nahtloser Loop-Videos aus Text durch latente Verschiebung
Mobius: Text to Seamless Looping Video Generation via Latent Shift

Feb 27

ByXiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao

Wir stellen Mobius vor, eine neuartige Methode zur Erzeugung nahtloser Looping-Videos direkt aus Textbeschreibungen ohne jegliche Benutzerannotationen, wodurch neue visuelle Materialien für Multimedia-Präsentationen geschaffen werden. Unsere Methode nutzt das vortrainierte latente Video-Diffusionsmodell, um Looping-Videos aus Textprompts zu generieren, ohne dass ein Training erforderlich ist. Während der Inferenz konstruieren wir zunächst einen latenten Zyklus, indem wir das Anfangs- und Endrauschen der Videos verbinden. Da die zeitliche Konsistenz durch den Kontext des Video-Diffusionsmodells aufrechterhalten werden kann, führen wir eine Multi-Frame-latente Entrauschung durch, indem wir das Latent der ersten Frame schrittweise zum Ende verschieben. Dadurch variiert der Entrauschungskontext in jedem Schritt, während die Konsistenz während des gesamten Inferenzprozesses erhalten bleibt. Darüber hinaus kann der latente Zyklus in unserer Methode beliebig lang sein. Dies erweitert unseren latenten Verschiebungsansatz, um nahtlose Looping-Videos über den Kontext des Video-Diffusionsmodells hinaus zu generieren. Im Gegensatz zu früheren Cinemagraphs erfordert die vorgeschlagene Methode kein Bild als Erscheinungsbild, was die Bewegungen der generierten Ergebnisse einschränken würde. Stattdessen kann unsere Methode dynamischere Bewegungen und eine bessere visuelle Qualität erzeugen. Wir führen mehrere Experimente und Vergleiche durch, um die Wirksamkeit der vorgeschlagenen Methode zu überprüfen und ihre Effizienz in verschiedenen Szenarien zu demonstrieren. Der gesamte Code wird verfügbar gemacht.

Über Next-Token hinaus: Next-X Vorhersage für autoregressive visuelle Generierung
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

Feb 27

BySucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen

Die autoregressive (AR) Modellierung, bekannt für ihr Paradigma der Vorhersage des nächsten Tokens, bildet die Grundlage für modernste Sprach- und visuelle generative Modelle. Traditionell wird ein "Token" als kleinste Vorhersageeinheit betrachtet, oft ein diskretes Symbol in der Sprache oder ein quantisiertes Patch in der Vision. Die optimale Token-Definition für 2D-Bildstrukturen bleibt jedoch eine offene Frage. Darüber hinaus leiden AR-Modelle unter Expositionsfehler, bei dem das Lehrer-Zwangstraining zu Fehlerakkumulation bei der Inferenz führt. In diesem Papier schlagen wir xAR vor, ein verallgemeinertes AR-Framework, das den Begriff eines Tokens auf eine Entität X erweitert, die ein einzelnes Patch-Token, eine Zelle (eine k mal k Gruppierung benachbarter Patches), eine Unterstichprobe (eine nicht-lokale Gruppierung entfernter Patches), eine Skala (grob bis feine Auflösung) oder sogar ein ganzes Bild darstellen kann. Darüber hinaus formulieren wir die diskrete Token-Klassifizierung als kontinuierliche Entitätsregression um, wobei wir Flussabgleichmethoden bei jedem AR-Schritt nutzen. Dieser Ansatz konditioniert das Training auf rauschhafte Entitäten anstelle von Ground-Truth-Tokens, was zu einem effektiven Abbau des Expositionsfehlers durch Noisy Context Learning führt. Als Ergebnis bietet xAR zwei wesentliche Vorteile: (1) Es ermöglicht flexible Vorhersageeinheiten, die unterschiedliche Kontextgranularität und räumliche Strukturen erfassen, und (2) es mildert den Expositionsfehler, indem es nicht auf das Lehrer-Zwangstraining angewiesen ist. In einem ImageNet-256-Generierungstest übertrifft unser Basismodell, xAR-B (172M), DiT-XL/SiT-XL (675M) und erreicht dabei eine 20-fach schnellere Inferenz. In der Zwischenzeit setzt xAR-H mit einem FID von 1.24 einen neuen State-of-the-Art und läuft 2,2-mal schneller als das zuvor bestperformende Modell, ohne auf Vision Foundation-Module (z. B. DINOv2) oder fortgeschrittene Anleitungsschwellenwertabtastung angewiesen zu sein.

Erstellung interaktiver Repliken komplexer artikulierter Objekte mittels Gaußscher Splatting
Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Feb 26

ByYu Liu, Baoxiong Jia, Ruijie Lu, Junfeng Ni, Song-Chun Zhu, Siyuan Huang

Die Erstellung artikulierter Objekte stellt eine zentrale Herausforderung in der Computer Vision dar. Bestehende Methoden scheitern oft daran, Informationen über verschiedene Objektzustände effektiv zu integrieren, was die Genauigkeit der Teilnetz-Rekonstruktion und der Modellierung von Teilbewegungen einschränkt, insbesondere bei komplexen, mehrteiligen artikulierten Objekten. Wir stellen ArtGS vor, einen neuartigen Ansatz, der 3D-Gaußsche Verteilungen als flexible und effiziente Repräsentation nutzt, um diese Probleme zu adressieren. Unsere Methode integriert kanonische Gaußsche Verteilungen mit einer grob- bis feinabgestuften Initialisierung und Aktualisierung, um Informationen über artikulierte Teile über verschiedene Objektzustände hinweg auszurichten, und verwendet ein von Skinning inspiriertes Modul zur Modellierung von Teilbewegungen, um sowohl die Teilnetz-Rekonstruktion als auch das Erlernen von Artikulationen zu verbessern. Umfangreiche Experimente auf synthetischen und realen Datensätzen, einschließlich eines neuen Benchmarks für komplexe mehrteilige Objekte, zeigen, dass ArtGS Spitzenleistungen in der gemeinsamen Parameterabschätzung und Teilnetz-Rekonstruktion erreicht. Unser Ansatz verbessert die Rekonstruktionsqualität und Effizienz erheblich, insbesondere bei mehrteiligen artikulierten Objekten. Zusätzlich bieten wir umfassende Analysen unserer Designentscheidungen, die die Wirksamkeit jeder Komponente validieren und potenzielle Bereiche für zukünftige Verbesserungen aufzeigen.

Hüter des agentischen Systems: Verhindern des Many Shots Jailbreaks mit dem agentischen System.
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Feb 23

BySaikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir

Die autonomen KI-Agenten, die große Sprachmodelle verwenden, können unbestreitbare Werte in allen Bereichen der Gesellschaft schaffen, stehen jedoch Sicherheitsbedrohungen von Gegnern gegenüber, die sofortige Schutzlösungen erfordern, da Vertrauens- und Sicherheitsprobleme auftreten. Die Berücksichtigung von Many-Shot-Jailbreaking und betrügerischer Ausrichtung als einige der Hauptfortgeschrittenen Angriffe, die nicht durch die statischen Leitplanken, die während des überwachten Trainings verwendet werden, gemildert werden können, weist auf eine entscheidende Forschungspriorität für die Robustheit in der realen Welt hin. Die Kombination von statischen Leitplanken in einem dynamischen Multi-Agenten-System versagt bei der Abwehr dieser Angriffe. Wir beabsichtigen, die Sicherheit für KI-Agenten auf der Grundlage großer Sprachmodelle durch die Entwicklung neuer Bewertungsrahmen zu verbessern, die Bedrohungen für einen sicheren operativen Einsatz identifizieren und bekämpfen. Unsere Arbeit verwendet drei Prüfmethoden, um Schurkenagenten durch einen Reverse-Turing-Test zu erkennen und betrügerische Ausrichtung durch Multi-Agenten-Simulationen zu analysieren und ein Anti-Jailbreaking-System zu entwickeln, indem es mit GEMINI 1.5 Pro und Llama-3.3-70B, DeepSeek R1-Modellen unter Verwendung von werkzeugvermittelten adversen Szenarien getestet wird. Die Erkennungsfähigkeiten sind stark, wie z. B. eine 94\%ige Genauigkeit für GEMINI 1.5 Pro, dennoch leidet das System unter anhaltenden Schwachstellen bei langen Angriffen, da mit zunehmender Promptlänge die Erfolgsraten von Angriffen (ASR) steigen und Diversitätsmetriken bei der Vorhersage unwirksam werden, während mehrere komplexe Systemfehler aufgedeckt werden. Die Ergebnisse zeigen die Notwendigkeit der Annahme flexibler Sicherheitssysteme auf, die auf aktiver Überwachung basieren, die von den Agenten selbst durchgeführt werden kann, zusammen mit anpassbaren Interventionen durch das System-Admin, da die aktuellen Modelle Schwachstellen schaffen können, die zu einem unzuverlässigen und anfälligen System führen können. Daher versuchen wir in unserer Arbeit, solche Situationen anzugehen und schlagen einen umfassenden Rahmen zur Bekämpfung der Sicherheitsprobleme vor.

Schlank und Effizient: Entkoppelte Wertpolitikoptimierung mit globaler Wertführung
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

Feb 24

ByChenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Proximale Policy-Optimierung (PPO)-basiertes Verstärkungslernen aus menschlichem Feedback (RLHF) ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs) mit menschlichen Präferenzen. Es erfordert das gemeinsame Training eines Akteurs und eines Kritikers mit einem vorab trainierten, festen Belohnungsmodell zur Orientierung. Dieser Ansatz erhöht die Rechenkomplexität und Instabilität aufgrund der Wechselbeziehung zwischen Akteur und Kritiker. Darüber hinaus hat PPO keinen Zugriff auf echte Umgebungsbelohnungen bei LLM-Aufgaben, was seine Anpassungsfähigkeit einschränkt. Unter solchen Bedingungen wird das Vortrainieren eines Wertmodells oder eines Belohnungsmodells äquivalent, da beide feste überwachende Signale ohne neues Feedback aus der Ground-Truth liefern. Um diese Probleme zu lösen, schlagen wir Decoupled Value Policy Optimization (DVPO) vor, ein schlankes Framework, das die herkömmliche Belohnungsmodellierung durch ein vortrainiertes globales Wertmodell (GVM) ersetzt. Das GVM ist abhängig von Richtlinientrajektorien und sagt Token-Ebene Rückkehr-zum-Ziel-Schätzungen voraus. Durch die Entkopplung des Wertmodells vom Richtlinientraining (über eingefrorene GVM-gesteuerte RL-Ziele) beseitigt DVPO die Wechselbeziehung zwischen Akteur und Kritiker, wodurch der GPU-Speicherverbrauch um 40\% und die Trainingszeit um 35\% im Vergleich zu herkömmlichem RLHF reduziert wird. Experimente über Benchmarks zeigen, dass DVPO effiziente RLHF-Methoden (z. B. DPO) übertrifft und gleichzeitig die Leistung des State-of-the-Art PPO erreicht.

SoRFT: Problemlösung durch subtaskorientiertes verstärktes Feintuning
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

Feb 27

ByZexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie

Gängige Frameworks zur Problemlösung stützen sich überwiegend auf kommerzielle Modelle, was zu hohen Kosten und Datenschutzbedenken führt. Bestehende Trainingsansätze für die Problemlösung kämpfen mit schlechter Generalisierung und schöpfen die Ressourcen der Open-Source-Entwicklung nicht vollständig aus. Wir schlagen Subtask-oriented Reinforced Fine-Tuning (SoRFT) vor, einen neuartigen Trainingsansatz zur Verbesserung der Problemlösungsfähigkeit von LLMs. Dabei wird die Problemlösung in strukturierte Teilaufgaben zerlegt: Dateilokalisierung, Funktionslokalisierung, Zeilenlokalisierung und Code-Edit-Generierung. SoRFT besteht aus zwei Trainingsphasen: (1) abgelehntes, überwachtes Feintuning, bei dem Chain of Thought (CoT)-Daten mithilfe von Ground-Truth gefiltert werden, bevor das LLM feinabgestimmt wird, und (2) regelbasiertes Reinforcement Learning, das PPO mit Ground-Truth-basierten Belohnungen nutzt. Wir evaluieren das mit SoRFT trainierte Modell auf SWE-Bench Verified und SWE-Bench Lite und erzielen state-of-the-art (SOTA)-Leistungen unter Open-Source-Modellen (z. B. Lösung von 21,4 % der Probleme auf SWE-Bench Verified mit SoRFT-Qwen-7B). Die experimentellen Ergebnisse zeigen, dass SoRFT die Problemlösungsleistung signifikant verbessert, die Modellgeneralisierung erhöht und eine kosteneffiziente Alternative zu kommerziellen Modellen bietet.

Über relationsspezifische Neuronen in großen Sprachmodellen
On Relation-Specific Neurons in Large Language Models

Feb 24

ByYihong Liu, Runsheng Chen, Lea Hirlimann, Ahmad Dawar Hakimi, Mingyang Wang, Amir Hossein Kargaran, Sascha Rothe, François Yvon, Hinrich Schütze

In großen Sprachmodellen (LLMs) können bestimmte Neuronen unterschiedliche Wissensstücke speichern, die während des Vortrainings gelernt wurden. Während Wissen in der Regel als Kombination von Relationen und Entitäten erscheint, bleibt unklar, ob einige Neuronen sich auf eine Relation selbst konzentrieren - unabhängig von einer Entität. Wir stellen die Hypothese auf, dass solche Neuronen eine Relation im Eingabetext erkennen und die Generierung, die eine solche Relation betrifft, lenken. Um dies zu untersuchen, studieren wir die Llama-2-Familie anhand einer ausgewählten Gruppe von Relationen mit einer statistikbasierten Methode. Unsere Experimente zeigen die Existenz von relationspezifischen Neuronen auf. Wir messen die Auswirkung der selektiven Deaktivierung von Kandidaten-Neuronen, die spezifisch für die Relation r sind, auf die Fähigkeit des LLM, (1) Fakten mit der Relation r und (2) Fakten mit einer anderen Relation r' neq r zu verarbeiten. In Bezug auf ihre Fähigkeit, Relationsinformationen zu codieren, liefern wir Belege für die folgenden drei Eigenschaften von relationspezifischen Neuronen. (i) Neuronen-Kumulativität. Die Neuronen für r zeigen eine kumulative Wirkung, sodass das Deaktivieren eines größeren Teils von ihnen zu einer Verschlechterung von mehr Fakten in r führt. (ii) Neuronen-Vielseitigkeit. Neuronen können über mehrere eng verwandte sowie weniger verwandte Relationen hinweg gemeinsam genutzt werden. Einige Relationsneuronen übertragen sich zwischen Sprachen. (iii) Neuronen-Interferenz. Das Deaktivieren von Neuronen, die spezifisch für eine Relation sind, kann die Generierungsleistung des LLM für Fakten anderer Relationen verbessern. Wir werden unseren Code öffentlich zugänglich machen unter https://github.com/cisnlp/relation-specific-neurons.

PlanGEN: Ein Multi-Agenten-Framework zur Generierung von Planungs- und Begründungspfaden für komplexe Problemlösungen.
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving

Feb 22

ByMihir Parmar, Xin Liu, Palash Goyal, Yanfei Chen, Long Le, Swaroop Mishra, Hossein Mobahi, Jindong Gu, Zifeng Wang, Hootan Nakhost, Chitta Baral, Chen-Yu Lee, Tomas Pfister, Hamid Palangi

Aktuelle Agenten-Frameworks und Inferenzzeit-Algorithmen haben oft Schwierigkeiten mit komplexen Planungsproblemen aufgrund von Einschränkungen bei der Überprüfung generierter Pläne oder der Bewältigung der variierenden Komplexität von Instanzen innerhalb einer einzelnen Aufgabe. Viele bestehende Methoden für diese Aufgaben führen entweder eine Überprüfung auf Aufgabenebene ohne Berücksichtigung von Einschränkungen durch oder wenden Inferenzzeit-Algorithmen an, ohne sich an die Komplexität auf Instanzebene anzupassen. Um diese Einschränkungen zu bewältigen, schlagen wir PlanGEN vor, ein modellagnostisches und leicht skalierbares Agenten-Framework mit drei Schlüsselkomponenten: Constraint-, Überprüfungs- und Auswahlagenten. Speziell schlägt unser Ansatz eine constraintsgesteuerte iterative Überprüfung vor, um die Leistung von Inferenzzeit-Algorithmen - Best of N, Tree-of-Thought und REBASE - zu verbessern. Im PlanGEN-Framework optimiert der Auswahlagent die Algorithmusauswahl basierend auf der Instanzkomplexität, um eine bessere Anpassung an komplexe Planungsprobleme zu gewährleisten. Experimentelle Ergebnisse zeigen signifikante Verbesserungen gegenüber dem stärksten Baseline-Modell über mehrere Benchmarks hinweg und erzielen Spitzenleistung bei NATURAL PLAN (ca. 8 % Anstieg), OlympiadBench (ca. 4 % Anstieg), DocFinQA (ca. 7 % Anstieg) und GPQA (ca. 1 % Anstieg). Unsere wichtigste Erkenntnis hebt hervor, dass constraintsgeführte iterative Überprüfung Inferenzzeit-Algorithmen verbessert und die adaptive Auswahl die Leistung bei komplexen Planungs- und Schlussfolgerungsproblemen weiter steigert.

R1-T1: Vollständige Anreizsetzung für Übersetzungsfähigkeiten in LLMs durch Reasoning-Lernen
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

Feb 27

ByMinggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie

Trotz jüngster Durchbrüche bei großen Sprachmodellen (LLMs) mit verbessertem logischen Denken wie DeepSeek-R1 ist die Integration von Inferenzzeit-Reasoning in die maschinelle Übersetzung (MT), bei der menschliche Übersetzer natürlicherweise strukturierte, mehrschichtige Gedankenketten (Chain-of-Thoughts, CoTs) verwenden, noch wenig erforscht. Bestehende Methoden entwerfen entweder eine feste CoT, die auf eine spezifische MT-Teilaufgabe zugeschnitten ist (z.B. Literaturübersetzung), oder verlassen sich auf die Synthese von CoTs, die nicht mit menschlichen Denkweisen übereinstimmen, und auf überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT), das anfällig für katastrophales Vergessen ist, was ihre Anpassungsfähigkeit an verschiedene Übersetzungsszenarien einschränkt. Dieses Papier stellt R1-Translator (R1-T1) vor, ein neuartiges Framework, das Inferenzzeit-Reasoning für allgemeine MT durch Reinforcement Learning (RL) mit menschlich ausgerichteten CoTs, die sechs gängige Muster umfassen, ermöglicht. Unser Ansatz führt drei Innovationen ein: (1) die Erweiterung des reasoning-basierten Übersetzens über MT-Teilaufgaben hinaus auf sechs Sprachen und diverse Aufgaben (z.B. rechtliche/medizinische Domänenanpassung, Idiomauflösung); (2) die Formalisierung von sechs von Experten kuratierten CoT-Vorlagen, die hybride menschliche Strategien wie kontextbewusstes Paraphrasieren und Rückübersetzung widerspiegeln; und (3) die Ermöglichung der selbstentwickelnden CoT-Entdeckung und Anti-Vergessen-Anpassung durch RL mit KL-beschränkten Belohnungen. Experimentelle Ergebnisse

Training von Konsistenzmodellen mit variationaler Rauschkopplung
Training Consistency Models with Variational Noise Coupling

Feb 25

ByGianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji

Konsistenztraining (CT) hat sich kürzlich als vielversprechende Alternative zu Diffusionsmodellen etabliert, die eine wettbewerbsfähige Leistung bei der Bildgenerierung erzielen. Allerdings leidet das Konsistenztraining ohne Destillation oft unter hoher Varianz und Instabilität, und die Analyse und Verbesserung seiner Trainingsdynamik ist ein aktives Forschungsgebiet. In dieser Arbeit schlagen wir einen neuartigen CT-Trainingsansatz basierend auf dem Flow Matching-Framework vor. Unser Hauptbeitrag ist ein trainiertes Rauschkopplungsschema, das von der Architektur Variationaler Autoencoder (VAE) inspiriert ist. Durch das Training eines datenabhängigen Rauschemissionsmodells, das als Encoder-Architektur implementiert ist, kann unsere Methode indirekt die Geometrie der Rausch-zu-Daten-Abbildung erlernen, die durch die Wahl des Vorwärtsprozesses im klassischen CT festgelegt ist. Empirische Ergebnisse über verschiedene Bilddatensätze zeigen signifikante generative Verbesserungen, wobei unser Modell Baselines übertrifft und den State-of-the-Art (SoTA) im nicht-dedizierten CT FID auf CIFAR-10 erreicht und einen FID auf Augenhöhe mit SoTA auf ImageNet bei einer Auflösung von 64 mal 64 in der 2-Schritt-Generierung erzielt. Unser Code ist unter https://github.com/sony/vct verfügbar.

Effizientes Gauss'sches Splatting zur monokularen dynamischen Szenenrendering durch sparsame zeitvariante Attributmodellierung.
Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

Feb 27

ByHanyang Kong, Xingyi Yang, Xinchao Wang

Die Darstellung dynamischer Szenen aus monokularen Videos ist eine entscheidende, aber anspruchsvolle Aufgabe. Die kürzlich entwickelte deformierbare Gauß-Splatting-Technik hat sich als robuste Lösung zur Darstellung realer dynamischer Szenen erwiesen. Allerdings führt sie oft zu stark redundanten Gaußschen Funktionen, die versuchen, jede Trainingsansicht zu verschiedenen Zeitpunkten anzupassen, was zu langsameren Rendergeschwindigkeiten führt. Darüber hinaus sind die Attribute der Gaußschen Funktionen in statischen Bereichen zeitinvariant, wodurch es unnötig ist, jede Gaußsche Funktion zu modellieren, was zu Flackern in statischen Regionen führen kann. In der Praxis ist der Hauptengpass bei der Rendergeschwindigkeit für dynamische Szenen die Anzahl der Gaußschen Funktionen. Als Antwort darauf führen wir Efficient Dynamic Gaussian Splatting (EDGS) ein, das dynamische Szenen über eine spärliche zeitvariante Attributmodellierung darstellt. Unser Ansatz formuliert dynamische Szenen mithilfe einer spärlichen Anker-Gitter-Repräsentation, wobei die Bewegungsfluss der dichten Gaußschen Funktionen über eine klassische Kernel-Repräsentation berechnet wird. Darüber hinaus schlagen wir eine unüberwachte Strategie vor, um Ankerpunkte, die statischen Bereichen entsprechen, effizient herauszufiltern. Nur Ankerpunkte, die mit verformbaren Objekten verbunden sind, werden in MLPs eingegeben, um zeitvariante Attribute abzufragen. Experimente mit zwei realen Datensätzen zeigen, dass unser EDGS die Rendergeschwindigkeit signifikant verbessert und im Vergleich zu früheren State-of-the-Art-Methoden eine überlegene Renderqualität bietet.