HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

30 papers found

Geometriegeführtes Reinforcement Learning für multiview-konsistente 3D-Szenenbearbeitung
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Mar 3

ByJiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin

144

Die Nutzung von Priori-Wissen aus 2D-Diffusionsmodellen für 3D-Bearbeitung hat sich als vielversprechendes Paradigma erwiesen. Allerdings bleibt die Gewährleistung multiview-konsistenter Bearbeitungsergebnisse eine Herausforderung, und die extreme Knappheit an gepaarten 3D-konsistenten Bearbeitungsdaten macht Supervised Fine-Tuning (SFT) – die effektivste Trainingsstrategie für Bearbeitungsaufgaben – undurchführbar. In dieser Arbeit stellen wir fest, dass zwar die Generierung multiview-konsistenter 3D-Inhalte äußerst schwierig ist, die Überprüfung der 3D-Konsistenz jedoch handhabbar bleibt, was Reinforcement Learning (RL) natürlich als praktikable Lösung positioniert. Darauf aufbauend schlagen wir RL3DEdit vor, ein Single-Pass-Framework, das durch RL-Optimierung mit neuartigen Belohnungssignalen des 3D-Foundation-Modells VGGT angetrieben wird. Konkret nutzen wir die robusten Priori-Informationen von VGGT, die aus umfangreichen realen Daten gelernt wurden, speisen die bearbeiteten Bilder ein und verwenden die Ausgabekonfidenzkarten sowie Pose-Schätzfehler als Belohnungssignale, um die 2D-Bearbeitungspriorien effektiv über RL auf eine 3D-konsistente Mannigfaltigkeit zu verankern. Umfangreiche Experimente zeigen, dass RL3DEdit stabile Multiview-Konsistenz erreicht und state-of-the-art Methoden in Bearbeitungsqualität bei hoher Effizienz übertrifft. Zur Förderung der 3D-Bearbeitungsforschung werden wir den Code und das Modell veröffentlichen.

Denken, um sich zu erinnern: Wie logisches Schließen parametrisches Wissen in LLMs freisetzt
Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Mar 10

ByZorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig

Während Reasoning in LLMs eine natürliche Rolle bei mathematischen Aufgaben, Code-Generierung und mehrstufigen Faktenfragen spielt, bleibt seine Wirkung auf einfache, einstufige Faktenfragen unklar. Solche Fragen erfordern keine schrittweise logische Zerlegung, was den Nutzen von Reasoning höchst kontraintuitiv erscheinen lässt. Dennoch stellen wir fest, dass Reasoning die Fähigkeitsgrenze der parametrischen Wissensabfrage des Modells erheblich erweitert und korrekte Antworten freisetzt, die ansonsten effektiv unerreichbar bleiben. Warum unterstützt Reasoning die parametrische Wissensabfrage, wenn keine komplexen Denkschritte erforderlich sind? Um dies zu beantworten, entwerfen wir eine Reihe hypothesengesteuerter Kontrollexperimente und identifizieren zwei zentrale Mechanismen: (1) einen Rechenpuffereffekt, bei dem das Modell die generierten Reasoning-Tokens für latente Berechnungen unabhängig von ihrem semantischen Inhalt nutzt, und (2) faktisches Priming, bei dem die Generierung themenverwandter Fakten als semantische Brücke fungiert, die die korrekte Antwortabfrage erleichtert. Dieser letztgenannte generative Selbstabrufmechanismus birgt inherente Risiken: Wir zeigen, dass das Halluzinieren intermediärer Fakten während des Reasonings die Wahrscheinlichkeit von Halluzinationen in der Endantwort erhöht. Abschließend demonstrieren wir, dass unsere Erkenntnisse genutzt werden können, um die Modellgenauigkeit direkt zu verbessern, indem Reasoning-Pfade priorisiert werden, die halluzinationsfreie Faktenaussagen enthalten.

MM-Zero: Selbst-evolvierende multimodale Vision-Language-Modelle ohne Ausgangsdaten
MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Mar 10

ByZongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu

Selbstevolution hat sich als zentrales Paradigma etabliert, um fundamentale Modelle wie Large Language Models (LLMs) und Vision Language Models (VLMs) mit minimalem menschlichem Eingriff zu verbessern. Während neuere Ansätze gezeigt haben, dass LLM-Agenten nahezu ohne Daten von Grund auf selbst evolvieren können, führt die zusätzliche visuelle Modalität von VLMs typischerweise die Notwendigkeit ein, zumindest einige Startdaten, wie Bilder, zum Anstoßen des Selbstevolutionsprozesses zu benötigen. In dieser Arbeit stellen wir Multi-model Multimodal Zero (MM-Zero) vor, den ersten RL-basierten Rahmen, der eine Null-Daten-Selbstevolution für das VLM-Schlussfolgern erreicht. Über bisherige Zwei-Rollen-Setups (Vorschlagender und Lösender) hinausgehend, führt MM-Zero einen Multi-Rollen-Selbstevolutionstrainingsrahmen ein, der drei spezialisierte Rollen umfasst: einen *Vorschlagenden*, der abstrakte visuelle Konzepte generiert und Fragen formuliert; einen *Programmierer*, der diese Konzepte in ausführbaren Code (z.B. Python, SVG) übersetzt, um visuelle Bilder zu erzeugen; und einen *Lösenden*, der multimodales Reasoning über den generierten visuellen Inhalt durchführt. Alle drei Rollen werden aus demselben Basismodell initialisiert und mit Group Relative Policy Optimization (GRPO) trainiert, wobei sorgfältig gestaltete Belohnungsmechanismen zur Anwendung kommen, die Ausführungsfeedback, visuelle Verifikation und Schwierigkeitsabgleich integrieren. Unsere Experimente zeigen, dass MM-Zero die Leistung von VLMs beim Schlussfolgern über eine breite Palette multimodaler Benchmarks hinweg verbessert. MM-Zero ebnet einen skalierbaren Weg hin zu sich selbst evolvierenden Multi-Modell-Systemen für multimodale Modelle und erweitert die Grenzen der Selbstverbesserung über das konventionelle Zwei-Modell-Paradigma hinaus.

Omni-Diffusion: Vereinheitlichtes multimodales Verständnis und Generierung mit maskierter diskreter Diffusion
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Mar 6

ByLijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

Während neuere multimodale große Sprachmodelle (MLLMs) beeindruckende Fortschritte erzielt haben, setzen sie überwiegend auf eine konventionelle autoregressive Architektur als Rückgrat, sodass erheblicher Spielraum bleibt, um effektive und effiziente Alternativen im architektonischen Design zu erforschen. Gleichzeitig haben aktuelle Studien diskrete Diffusionsmodelle erfolgreich in verschiedenen Bereichen wie visuellem Verständnis und Bildgenerierung angewendet und ihr beträchtliches Potenzial als vielversprechende Basis für multimodale Systeme aufgezeigt. Inspiriert von diesen wegweisenden Forschungen stellen wir Omni-Diffusion vor, das erste beliebig-zu-beliebige multimodale Sprachmodell, das vollständig auf maskenbasierten diskreten Diffusionsmodellen aufbaut und Verstehen sowie Generierung über Text, Sprache und Bilder vereinheitlicht. Omni-Diffusion verwendet ein vereinheitlichtes maskenbasiertes diskretes Diffusionsmodell, um die gemeinsame Verteilung diskreter multimodaler Tokens direkt zu erfassen. Dieser Ansatz unterstützt nicht nur bimodale Aufgaben, sondern auch komplexere Szenarien mit mehreren Modalitäten. Auf einer Vielzahl von Benchmarks übertrifft unsere Methode bestehende multimodale Systeme, die zwei oder mehr Modalitäten verarbeiten, oder hält mit ihnen Schritt, was das bedeutende Potenzial von Diffusionsmodellen für die nächste Generation multimodaler Foundation Models unterstreicht. Projektwebseite: https://omni-diffusion.github.io.

InternVL-U: Demokratisierung vereinheitlichter multimodaler Modelle für Verstehen, Schlussfolgern, Erzeugen und Bearbeiten
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Mar 10

ByChangyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

Vereinheitlichte multimodale Modelle (UMMs), die Verstehen, logisches Schließen, Generierung und Bearbeitung integrieren, stehen vor inhärenten Zielkonflikten zwischen der Aufrechterhaltung eines starken semantischen Verständnisses und dem Erwerb leistungsfähiger Generierungsfähigkeiten. In diesem Bericht stellen wir InternVL-U vor, ein leichtgewichtiges UMM mit 4B Parametern, das diese Fähigkeiten innerhalb eines vereinheitlichten Frameworks demokratisiert. Geleitet von den Prinzipien der vereinheitlichten kontextuellen Modellierung und eines modalitätsspezifischen modularen Designs mit entkoppelten visuellen Repräsentationen, integriert InternVL-U ein modernes Multimodales Großsprachmodell (MLLM) mit einem spezialisierten, auf MMDiT basierenden visuellen Generierungs-Head. Um die Lücke zwischen ästhetischer Generierung und hochrangiger Intelligenz weiter zu schließen, entwickeln wir eine umfassende Data-Synthesis-Pipeline für Aufgaben mit hoher Semantikdichte, wie Textdarstellung und wissenschaftliches Schließen, unter einem schlussfolgerungszentrierten Paradigma, das Chain-of-Thought (CoT) nutzt, um abstrakte Benutzerabsichten besser mit feingranularen visuellen Generierungsdetails abzugleichen. Umfangreiche Experimente belegen, dass InternVL-U eine überlegene Balance zwischen Leistung und Effizienz erreicht. Trotz der Verwendung von nur 4B Parametern übertrifft es konsistent vereinheitlichte Baseline-Modelle mit über 3x größerem Umfang, wie BAGEL (14B), bei verschiedenen Generierungs- und Bearbeitungsaufgaben, während es gleichzeitig starke multimodale Verstehens- und Reasoning-Fähigkeiten beibehält.

Fish Audio S2 Technischer Bericht
Fish Audio S2 Technical Report

Mar 9

ByShijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

Wir stellen Fish Audio S2 vor, ein quelloffenes Text-zu-Sprache-System mit Funktionen zur Mehrsprecher- und Mehrfachdialog-Generierung sowie, vor allem, einer steuerbaren Befolgung von Anweisungen durch natürliche Sprachbeschreibungen. Um das Training zu skalieren, entwickelten wir ein mehrstufiges Trainingsrezept zusammen mit einer gestaffelten Datenpipeline, die Videobeschriftung, Sprachbeschriftung, Bewertung der Sprachqualität und Reward-Modellierung umfasst. Um die Grenzen quelloffener TTS-Systeme zu erweitern, veröffentlichen wir unsere Modellgewichte, Fine-Tuning-Code und eine auf SGLang basierende Inferenz-Engine. Die Inferenz-Engine ist produktionsreif für Streaming, erreicht eine RTF von 0,195 und eine Zeit bis zum ersten Audiosegment von unter 100 ms.Unser Code und unsere Gewichte sind auf GitHub (https://github.com/fishaudio/fish-speech) und Hugging Face (https://huggingface.co/fishaudio/s2-pro) verfügbar. Wir ermutigen Leser nachdrücklich, https://fish.audio zu besuchen, um benutzerdefinierte Stimmen auszuprobieren.

Lesen, nicht Denken: Verständnis und Überbrückung der Modalitätslücke, wenn Text zu Pixeln in multimodalen LLMs wird
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Mar 10

ByKaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai

Multimodale große Sprachmodelle (MLLMs) können als Bilder dargestellten Text verarbeiten, schneiden jedoch oft schlechter ab, als wenn derselbe Inhalt in Form von Text-Tokens bereitgestellt wird. Wir diagnostizieren systematisch diese "Modalitätslücke", indem wir sieben MLLMs anhand von sieben Benchmarks in fünf Eingabemodi evaluieren, die sowohl synthetisch gerenderten Text als auch realistische Dokumentbilder von arXiv-PDFs bis hin zu Wikipedia-Seiten umfassen. Wir stellen fest, dass die Modalitätslücke aufgaben- und datenabhängig ist. Beispielsweise verschlechtern sich mathematische Aufgaben bei synthetischen Darstellungen um über 60 Punkte, während natürliche Dokumentbilder die Leistung im Textmodus oft erreichen oder übertreffen. Darstellungsentscheidungen wie Schriftart und Auflösung sind starke Störfaktoren, wobei allein die Schriftart die Genauigkeit um bis zu 47 Prozentpunkte beeinflussen kann. Um dies zu verstehen, führen wir eine feingliedrige Fehleranalyse von über 4.000 Beispielen durch, die zeigt, dass der Bildmodus selektiv Lesefehler (Rechen- und Formatierungsfehler) verstärkt, während Wissens- und Reasoning-Fehler weitgehend unverändert bleiben, und dass einige Modelle unter visueller Eingabe einen Kollaps der Kettenschluss-Argumentation (Chain-of-Thought) aufweisen. Motiviert durch diese Erkenntnisse schlagen wir eine Selbst-Distillationsmethode vor, bei der das Modell mit seinen eigenen reinen Text-Reasoning-Spuren trainiert wird, die mit Bildeingaben gepaart sind. Dies steigert die Genauigkeit im Bildmodus auf GSM8K von 30,71 % auf 92,72 % und überträgt sich auf unbekannte Benchmarks ohne katastrophales Vergessen. Insgesamt liefert unsere Studie ein systematisches Verständnis der Modalitätslücke und weist einen praktischen Weg zur Verbesserung des visuellen Textverständnisses in multimodalen Sprachmodellen.

VLMs auf den Platz gestellt: Benchmarking räumlicher Intelligenz im Sport
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Mar 10

ByYuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong

Sportarten haben seit langem große Aufmerksamkeit auf sich gezogen, da sie die Grenzen menschlicher physischer und kognitiver Fähigkeiten erweitern. Vor dem Hintergrund des wachsenden Interesses an räumlicher Intelligenz für Vision-Language-Modelle (VLMs) bieten Sportarten ein natürliches Testfeld zum Verständnis von hochintensiven menschlichen Bewegungen und dynamischen Objektinteraktionen. Zu diesem Zweck stellen wir CourtSI vor, den ersten groß angelegten räumlichen Intelligenz-Datensatz, der speziell auf Sportszenarien zugeschnitten ist. CourtSI enthält über 1 Millionen Frage-Antwort-Paare, die nach einer ganzheitlichen Taxonomie organisiert sind, die systematisch räumliches Zählen, Entfernungsmessung, Lokalisierung und relationales Reasoning in repräsentativen Rückschlagspielen wie Badminton, Tennis und Tischtennis abdeckt. Unter Nutzung der klar definierten Spielfeldgeometrie als metrische Referenzpunkte entwickelten wir eine halbautomatische Daten-Engine zur Rekonstruktion von Sportszenen, die eine skalierbare Erstellung von CourtSI ermöglicht. Zusätzlich führen wir CourtSI-Bench ein, einen hochwertigen Evaluierungsbenchmark mit 3.686 Frage-Antwort-Paaren, die einer strengen menschlichen Überprüfung unterzogen wurden. Wir evaluieren 25 proprietäre und Open-Source-VLMs auf CourtSI-Bench, was eine bestehende Leistungslücke zwischen Mensch und KI sowie eine begrenzte Generalisierung von bestehenden räumlichen Intelligenz-Benchmarks aufzeigt. Diese Ergebnisse deuten darauf hin, dass Sportszenarien Limitierungen der räumlichen Intelligenzfähigkeiten offenbaren, die von bestehenden Benchmarks nicht erfasst werden. Darüber hinaus verbessert ein Fine-Tuning von Qwen3-VL-8B auf CourtSI die Genauigkeit auf CourtSI-Bench um 23,5 Prozentpunkte. Das angepasste Modell generalisiert auch effektiv auf CourtSI-Ext, einem Evaluierungsset, das auf einer ähnlichen, aber unbekannten Sportart basiert, und zeigt eine verbesserte generation räumlich bewusster Kommentare. Zusammengenommen demonstrieren diese Ergebnisse, dass CourtSI einen skalierbaren Weg zur Weiterentwicklung der räumlichen Intelligenz von VLMs im Sportbereich bietet.

MiniAppBench: Bewertung des Wandels von textbasierten zu interaktiven HTML-Antworten in KI-gestützten Assistenten
MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Mar 10

ByZuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

Mit der rasanten Entwicklung von Large Language Models (LLMs) in der Code-Generierung entwickelt sich die Mensch-KI-Interaktion von statischen Textantworten hin zu dynamischen, interaktiven HTML-basierten Anwendungen, die wir als MiniApps bezeichnen. Diese Anwendungen erfordern von Modellen nicht nur die Darstellung visueller Oberflächen, sondern auch die Erstellung einer maßgeschneiderten Interaktionslogik, die realen Prinzipien folgt. Bisherige Benchmarks konzentrieren sich jedoch primär auf algorithmische Korrektheit oder statische Layout-Rekonstruktion und erfassen nicht die Fähigkeiten, die für dieses neue Paradigma erforderlich sind. Um diese Lücke zu schließen, führen wir MiniAppBench ein, den ersten umfassenden Benchmark zur Bewertung der prinzipiengetriebenen, interaktiven Anwendungsgenerierung. Ausgehend von einer realen Anwendung mit über 10 Millionen Generierungen verdichtet MiniAppBench 500 Aufgaben aus sechs Domänen (z.B. Spiele, Wissenschaft und Werkzeuge). Um zudem die Herausforderung der Bewertung offener Interaktionen ohne eindeutige Referenzlösung zu bewältigen, schlagen wir MiniAppEval vor, ein agentenbasiertes Evaluierungsframework. Durch den Einsatz von Browser-Automatisierung führt es explorative Tests nach menschlichem Vorbild durch, um Anwendungen systematisch in drei Dimensionen zu bewerten: Intention, Statik und Dynamik. Unsere Experimente zeigen, dass aktuelle LLMs nach wie vor erhebliche Schwierigkeiten bei der Generierung hochwertiger MiniApps haben, während MiniAppEval eine hohe Übereinstimmung mit menschlichen Bewertungen aufweist und somit einen verlässlichen Standard für zukünftige Forschung etabliert. Unser Code ist auf github.com/MiniAppBench verfügbar.

Hören Audio-Sprachmodelle zu? Audio-Spezialisierte Köpfe zur adaptiven Audiosteuerung
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Mar 6

ByNeta Glazer, Lenny Aharon, Ethan Fetaya

Multimodale große Sprachmodelle können Textdominanz aufweisen, indem sie übermäßig auf sprachliche A-priori-Informationen zurückgreifen, anstatt Vorhersagen auf nicht-textuelle Eingaben zu stützen. Ein Beispiel sind große Audio-Sprach-Modelle (LALMs), bei denen entscheidende Audio-Evidenz selbst dann unzureichend genutzt werden kann, wenn sie wichtige Informationen enthält. Um dieses Problem zu adressieren, verwenden wir mechanistische Interpretierbarkeit, um eine kleine Gruppe von Audio-spezialisierten Attention-Heads zu identifizieren, deren Audio-Aufmerksamkeit ein "Zuhör"-Signal erzeugt. Wir zeigen, dass dieses Signal ansteigt, wenn Audio-Evidenz die Modellausgabe beeinflusst, und somit unter Standard-Prompting als Indikator für Audio-Engagement dient. Durch diese Lokalisierung konstruieren wir eine Audio-Stille-Lenkrichtung und wenden eine Aktivierungsintervention zur Inferenzzeit auf die finale Repräsentation an, um den Audio-Effekt des Modells zu verstärken. Um den Nutzen dieser Intervention zu demonstrieren, zeigen wir auf MMAU, dass dies die Genauigkeit zweier Qwen-basierter LALMs um bis zu +8,0 Prozentpunkte verbessert – ohne jegliche Parameteraktualisierungen.

VLM-SubtleBench: Wie weit entfernt sind VLMs von menschenähnlichem subtilem Vergleichsdenken?
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Mar 9

ByMinkyu Kim, Sangheon Lee, Dongmin Park

Die Fähigkeit, subtile Unterschiede zwischen visuell ähnlichen Bildern zu unterscheiden, ist für verschiedene Bereiche wie die industrielle Anomalieerkennung, die medizinische Bildgebung und die Luftüberwachung von entscheidender Bedeutung. Während kürzlich Vergleichs-Benchmarks für Vision-Language-Modelle (VLMs) entstanden sind, konzentrieren diese sich hauptsächlich auf Bilder mit großen, auffälligen Unterschieden und erfassen nicht die nuancierten Abwägungen, die für reale Anwendungen erforderlich sind. In dieser Arbeit stellen wir VLM-SubtleBench vor, einen Benchmark, der entwickelt wurde, um VLMs anhand von subtilem vergleichendem Denken zu bewerten. Unser Benchmark deckt zehn Unterschiedstypen ab – Attribut, Zustand, Emotion, Temporal, Räumlich, Existenz, Menge, Qualität, Blickwinkel und Aktion – und kuratiert gepaarte Frage-Bild-Sets, die diese fein abgestuften Variationen widerspiegeln. Anders als frühere Benchmarks, die auf natürliche Bilddatensätze beschränkt sind, erstreckt sich unser Benchmark über verschiedene Domänen, einschließlich industrieller, luftgestützter und medizinischer Bildgebung. Durch eine umfassende Evaluierung sowohl proprietärer als auch quelloffener VLMs decken wir systematische Lücken zwischen der Modell- und der menschlichen Leistung über Unterschiedstypen und Domänen hinweg auf und liefern kontrollierte Analysen, die hervorheben, wo die Schlussfolgerungsfähigkeit von VLMs stark nachlässt. Zusammen bilden unser Benchmark und unsere Erkenntnisse eine Grundlage, um VLMs in Richtung eines menschenähnlichen vergleichenden Denkens weiterzuentwickeln.

Tu, was ich sage: Ein gesprochenes Prompt-Dataset für Befolgung von Anweisungen
Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Mar 10

ByMaike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

Sprachbasierte Large Language Models (SLLMs) haben sich rasant weiterentwickelt und unterstützen eine Vielzahl von Aufgaben. Diese Modelle werden typischerweise mit Textprompts evaluiert, was möglicherweise keine realistischen Szenarien widerspiegelt, in denen Nutzer mit Sprache interagieren. Um diese Lücke zu schließen, stellen wir DoWhatISay (DOWIS) vor, einen multilingualen Datensatz mit von Menschen aufgezeichneten gesprochenen und geschriebenen Prompts, der dazu konzipiert ist, sich mit beliebigen bestehenden Benchmarks koppeln zu lassen, um eine realistische Evaluation von SLLMs unter Bedingungen gesprochener Instruktionen zu ermöglichen. Der Datensatz umfasst 9 Aufgaben und 11 Sprachen und bietet 10 Prompt-Varianten pro Aufgaben-Sprachen-Paar in fünf verschiedenen Stilen. Unter Verwendung von DOWIS benchmarken wir state-of-the-art SLLMs und analysieren das Zusammenspiel zwischen Prompt-Modalität, Stil, Sprache und Aufgabentyp. Die Ergebnisse zeigen, dass Textprompts durchweg bessere Leistungen erzielen als gesprochene Prompts, insbesondere in ressourcenarmen und cross-lingualen Settings. Nur bei Aufgaben mit Sprachausgabe schließen gesprochene Prompts die Lücke nahezu, was den Bedarf an sprachbasierter Prompting für die SLLM-Evaluation unterstreicht.

Entkopplung von Entscheidungsfindung und Vertrauen: Wiederherstellung der Kalibrierung beim Reinforcement Learning durch verifizierbare Belohnungen
Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Mar 10

ByZhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

Reinforcement Learning from Verifiable Rewards (RLVR) verbessert die Fähigkeit von Large Language Models (LLMs) zum logischen Schlussfolgern erheblich, leidet jedoch stark unter einem Kalibrierungsverfall, bei dem die Modelle übermäßig selbstsicher in falschen Antworten werden. Bisherige Studien konzentrieren sich darauf, das Kalibrierungsziel direkt in das bestehende Optimierungsziel zu integrieren. Unsere theoretische Analyse zeigt jedoch, dass ein grundlegender Gradientenkonflikt zwischen der Optimierung zur Maximierung der Richtlinientreffergenauigkeit und der Minimierung des Kalibrierungsfehlers besteht. Aufbauend auf dieser Erkenntnis schlagen wir DCPO vor, ein einfaches, aber effektives Framework, das die Ziele für das Schlussfolgern und die Kalibrierung systematisch entkoppelt. Umfangreiche Experimente belegen, dass unser DCPO nicht nur eine mit GRPO vergleichbare Genauigkeit beibehält, sondern auch die beste Kalibrierungsleistung erzielt und das Problem der Überselbstsicherheit erheblich mildert. Unsere Studie liefert wertvolle Einblicke und eine praktische Lösung für einen zuverlässigeren Einsatz von LLMs.

Test-Driven AI Agent Definition (TDAD): Kompilierung werkzeugnutzender Agenten aus Verhaltensspezifikationen
Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Mar 9

ByTzafrir Rehan

Wir stellen Test-Driven AI Agent Definition (TDAD) vor, eine Methodik, die Agenten-Prompts als kompilierte Artefakte behandelt: Ingenieure liefern Verhaltensspezifikationen, ein Code-Agent wandelt diese in ausführbare Tests um, und ein zweiter Code-Agent verfeinert den Prompt iterativ, bis die Tests bestehen. Der Einsatz von werkzeugnutzenden LLM-Agenten in der Produktion erfordert eine messbare Verhaltenskonformität, die aktuelle Entwicklungspraktiken nicht gewährleisten können. Kleine Prompt-Änderungen führen zu stillen Regressionen, Werkzeugmissbrauch bleibt unentdeckt, und Richtlinienverstöße treten erst nach dem Deployment auf. Um Spezifikationsmanipulation einzudämmen, führt TDAD drei Mechanismen ein: (1) Aufteilungen in sichtbare/verdeckte Tests, die Evaluierungstests während der Kompilierung zurückhalten, (2) semantisches Mutationstesting über einen Post-Kompilierungs-Agenten, der plausible fehlerhafte Prompt-Varianten generiert, wobei das Testframework misst, ob die Testsuite diese erkennt, und (3) Spezifikations-Evolutionsszenarien, die die Regressionssicherheit bei Anforderungsänderungen quantifizieren. Wir evaluieren TDAD auf SpecSuite-Core, einem Benchmark mit vier tiefspezifizierten Agenten, die Richtliniencompliance, geerdete Analytik, Runbook-Einhaltung und deterministische Durchsetzung abdecken. Über 24 unabhängige Versuche hinweg erreicht TDAD eine V1-Kompilierungserfolgsrate von 92 % mit einer durchschnittlichen verdeckten Bestehensrate von 97 %; weiterentwickelte Spezifikationen kompilieren zu 58 %, wobei die meisten fehlgeschlagenen Läufe alle sichtbaren Tests bis auf 1-2 bestehen, und zeigen 86-100 % Mutationsscores, eine V2-verdeckte Bestehensrate von 78 % und 97 % Regressionssicherheits-Scores. Die Implementierung ist als Open-Benchmark unter https://github.com/f-labs-io/tdad-paper-code verfügbar.

Auf dem Weg zu einem neuronalen Debugger für Python
Towards a Neural Debugger for Python

Mar 10

ByMaximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve

Das Training großer Sprachmodelle (LLMs) an Python-Ausführungsspuren verankert sie in der Codeausführung und ermöglicht die zeilenweise Ausführungsvorhersage kompletter Python-Programme, wodurch sie effektiv zu neuronalen Interpretern werden (FAIR CodeGen Team et al., 2025). Entwickler führen Programme jedoch selten Schritt für Schritt aus; stattdessen nutzen sie Debugger, um die Ausführung an bestimmten Haltepunkten anzuhalten und nur relevante Abschnitte schrittweise zu durchlaufen, während sie Programmvariablen inspizieren oder modifizieren. Bestehende neuronale Interpreter-Ansätze verfügen nicht über eine solche interaktive Steuerung. Um diese Einschränkung zu adressieren, führen wir neuronale Debugger ein: Sprachmodelle, die traditionelle Debugger emulieren und Operationen wie Schrittweise-Ausführung-in-Funktionen-hinein, -darüber-hinweg oder -heraus sowie das Setzen von Haltepunkten an bestimmten Quellcodezeilen unterstützen. Wir zeigen, dass neuronale Debugger – erhalten durch Feinabstimmung großer LLMs oder Vortraining kleinerer Modelle von Grund auf – sowohl die Vorwärtsausführung (Vorhersage zukünftiger Zustände und Ausgaben) als auch die inverse Ausführung (Rückschluss auf vorherige Zustände oder Eingaben) zuverlässig modellieren können, bedingt durch Debugger-Aktionen. Evaluierungen auf CruxEval zeigen, dass unsere Modelle bei Ausgabe- und Eingabevorhersageaufgaben starke Leistung erzielen und eine robuste bedingte Ausführungsmodellierung demonstrieren. Unsere Arbeit unternimmt erste Schritte in Richtung zukünftiger agentenbasierter Codiersysteme, in denen neuronale Debugger als Weltmodelle für simulierte Debugging-Umgebungen dienen, um Ausführungsfeedback zu liefern oder Agenten die Interaktion mit echten Debugging-Tools zu ermöglichen. Diese Fähigkeit legt den Grundstein für leistungsfähigere Code-Generierung, Programmunterstützung und automatisiertes Debugging.

Die Falle des logischen Denkens – Logisches Schließen als mechanistischer Weg zur Situationswahrnehmung
The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Mar 10

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Situationsbewusstsein, die Fähigkeit eines KI-Systems, die eigene Natur zu erkennen, den Trainings- und Einsatzkontext zu verstehen und strategisch über die eigenen Umstände zu schlussfolgern, gilt weithin als eine der gefährlichsten emergenten Fähigkeiten fortschrittlicher KI-Systeme. Parallel dazu zielt eine wachsende Forschungsbemühung darauf ab, die logischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) in den Bereichen Deduktion, Induktion und Abduktion zu verbessern. In diesem Artikel argumentieren wir, dass diese beiden Forschungsrichtungen auf Kollisionskurs sind. Wir stellen den RAISE-Rahmen vor (Reasoning Advancing Into Self Examination), der drei mechanistische Pfade identifiziert, über die Verbesserungen im logischen Denken zunehmend tiefere Ebenen des Situationsbewusstseins ermöglichen: deduktive Selbstableitung, induktive Kontexterkennung und abduktive Selbstmodellierung. Wir formalisieren jeden Pfad, konstruieren eine Eskalationsleiter von grundlegender Selbsterkennung bis hin zu strategischer Täuschung und zeigen, dass jedes größere Forschungsthema im Bereich des logischen Schlussfolgerns von LLMs direkt auf einen spezifischen Verstärker des Situationsbewusstseins abbildbar ist. Wir analysieren weiterhin, warum aktuelle Sicherheitsmaßnahmen nicht ausreichen, um diese Eskalation zu verhindern. Abschließend schlagen wir konkrete Schutzmaßnahmen vor, darunter einen "Spiegel-Test"-Benchmark und ein Prinzip der Sicherheitsparität beim Schlussfolgern, und werfen der Gemeinschaft der Logikforschung eine unbequeme, aber notwendige Frage zu ihrer Verantwortung in dieser Entwicklung auf.

Streaming-Autoregressive Videogenerierung durch diagonale Destillation
Streaming Autoregressive Video Generation via Diagonal Distillation

Mar 10

ByJinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu

Große vortrainierte Diffusionsmodelle haben die Qualität generierter Videos erheblich verbessert, doch ihr Einsatz im Echtzeit-Streaming bleibt begrenzt. Autoregressive Modelle bieten einen natürlichen Rahmen für die sequentielle Rahmensynthese, erfordern jedoch hohe Rechenleistung, um hohe Detailtreue zu erreichen. Diffusionsdistillation kann diese Modelle in effiziente Varianten mit wenigen Schritten komprimieren, doch bestehende Video-Distillationsansätze adaptieren weitgehend bildspezifische Methoden, die zeitliche Abhängigkeiten vernachlässigen. Diese Techniken zeichnen sich häufig in der Bildgenerierung aus, schneiden aber bei der Videosynthese schlechter ab, was sich in reduzierter Bewegungskohärenz, Fehlerakkumulation über lange Sequenzen und einem Latenz-Qualitäts-Kompromiss äußert. Wir identifizieren zwei Faktoren, die zu diesen Einschränkungen führen: unzureichende Nutzung des zeitlichen Kontexts während der Schrittreduzierung und implizite Vorhersage nachfolgender Rauschpegel bei der Next-Chunk-Vorhersage (d.h. Exposure Bias). Um diese Probleme zu adressieren, schlagen wir Diagonal Distillation vor, das orthogonal zu bestehenden Ansätzen operiert und zeitliche Informationen sowohl über Videosegmente als auch über Entrauschungsschritte hinweg besser nutzt. Kern unseres Ansatzes ist eine asymmetrische Generierungsstrategie: mehr Schritte früh, weniger Schritte später. Dieses Design ermöglicht es späteren Segmenten, reichhaltige Erscheinungsinformationen von gründlich verarbeiteten frühen Segmenten zu erben, während teilweise entrauschte Segmente als konditionale Eingaben für die nachfolgende Synthese verwendet werden. Indem wir die implizite Vorhersage nachfolgender Rauschpegel während der Segmentgenerierung mit den tatsächlichen Inferenzbedingungen in Einklang bringen, mildert unser Ansatz die Fehlerfortpflanzung und reduziert Übersättigung in langen Sequenzen. Wir integrieren weiterhin implizite optische Flussmodellierung, um die Bewegungsqualität unter strengen Schrittbeschränkungen zu erhalten. Unsere Methode generiert ein 5-Sekunden-Video in 2,61 Sekunden (bis zu 31 FPS) und erreicht damit eine 277,3-fache Beschleunigung gegenüber dem undistillierten Modell.

ReflexiCoder: Vermittlung der Fähigkeit zur Selbstreflexion über generierten Code und Selbstkorrektur mittels Reinforcement Learning in großen Sprachmodellen
ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Mar 6

ByJuyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim

Während Large Language Models (LLMs) die Code-Generierung revolutioniert haben, stoßen standardmäßige "System 1"-Ansätze, die Lösungen in einem einzigen Vorwärtsdurchlauf erzeugen, bei komplexen algorithmischen Aufgaben oft an eine Leistungsgrenze. Bestehende iterative Verbesserungsstrategien versuchen, diese Lücke zur Inferenzzeit zu schließen, stützen sich jedoch überwiegend auf externe Orakel, Ausführungsfeedback oder rechenintensive Prompt-Response-Zyklen. In dieser Arbeit stellen wir ReflexiCoder vor, ein neuartiges Reinforcement Learning (RL) Framework, das den strukturierten Denkprozess – angefangen bei der initialen Generierung über fehler- und optimierungsbewusste Reflexion bis hin zur Selbstkorrektur – direkt in den Modellgewichten internalisiert. Im Gegensatz zu früheren Methoden verlagert ReflexiCoder das Paradigma von einer extern abhängigen Verfeinerung hin zu intrinsischen, vollständig autonomen Selbstreflexions- und Selbstkorrekturfähigkeiten zur Inferenzzeit. Wir nutzen ein RL-Zero-Training-Paradigma mit granularen Belohnungsfunktionen, um den gesamten Reflexions-Korrektur-Pfad zu optimieren und dem Modell beizubringen, wie es ohne Abhängigkeit von Ground-Truth-Feedback oder Ausführungs-Engines zur Inferenzzeit debuggt. Umfangreiche Experimente über sieben Benchmarks zeigen, dass unser ReflexiCoder-8B einen neuen State-of-the-Art (SOTA) unter führenden Open-Source-Modellen im Bereich von 1,5B bis 14B etabliert und dabei 94,51 % (87,20 %) auf HumanEval (Plus), 81,80 % (78,57 %) auf MBPP (Plus), 35,00 % auf BigCodeBench, 52,21 % auf LiveCodeBench und 37,34 % auf CodeForces in einem Single-Attempt-Setting erreicht – was proprietären Modellen wie GPT-5.1 ebenbürtig ist oder sie übertrifft. Besonders bemerkenswert ist, dass unser Framework deutlich token-effizienter als Basismodelle ist und den Rechenaufwand zur Inferenzzeit durch disziplinierte, hochgeschwindigkeitsreasoning- und Reflexionsmuster um etwa 40 % reduziert. Der Quellcode ist verfügbar unter https://github.com/juyongjiang/ReflexiCoder.

Mehrkopf-Aufmerksamkeit mit niedrigem Rang
Multi-Head Low-Rank Attention

Mar 2

BySongtao Liu, Hongwu Peng, Zhiwei Zhang, Zhengyu Chen, Yue Guo

Die Langkontext-Inferenz in großen Sprachmodellen wird durch das Laden des Key-Value (KV)-Caches während der Dekodierphase zum Engpass, da der sequenzielle Charakter der Generierung eine wiederholte Übertragung des KV-Caches vom Off-Chip-Hochbandbreiten-Speicher (HBM) zum On-Chip-Static-Random-Access-Memory (SRAM) in jedem Schritt erfordert. Während Multi-Head Latent Attention (MLA) die Gesamtgröße des KV-Caches erheblich reduziert, leidet es unter einem Sharding-Engpass bei der verteilten Dekodierung mittels Tensor-Parallelismus (TP). Da sein einzelner latenter Kopf nicht partitioniert werden kann, ist jedes Gerät gezwungen, den vollständigen KV-Cache für jedes Token redundant zu laden, was übermäßigen Speicherverkehr verursacht und Vorteile von TP wie Gewichts-Sharding schmälert. In dieser Arbeit schlagen wir Multi-Head Low-Rank Attention (MLRA) vor, das partitionierbare latente Zustände für eine effiziente 4-Wege-TP-Dekodierung ermöglicht. Umfangreiche Experimente zeigen, dass MLRA state-of-the-art Perplexität und Leistung bei nachgelagerten Aufgaben erreicht und gleichzeitig eine 2,8-fache Beschleunigung der Dekodierung gegenüber MLA liefert. Der Code ist verfügbar unter https://github.com/SongtaoLiu0823/MLRA. Vortrainierte Gewichte sowie die Trainings- und Evaluierungsdaten sind verfügbar unter https://huggingface.co/Soughing/MLRA.

BrandFusion: Ein Multi-Agenten-Framework für nahtlose Markenintegration in der Text-zu-Video-Generierung
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Mar 3

ByZihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu

Die rasante Entwicklung von Text-zu-Video (T2V)-Modellen hat die Inhaltserstellung revolutioniert, doch ihr kommerzielles Potenzial bleibt weitgehend unerschlossen. Wir führen erstmals die Aufgabe der nahtlosen Markenintegration in T2V ein: die automatische Einbettung von Werbemarken in prompt-generierte Videos unter Wahrung der semantischen Treue zur Nutzerabsicht. Diese Aufgabe stellt drei zentrale Herausforderungen: die Wahrung der Prompt-Treue, die Gewährleistung der Markenerkennbarkeit und die Erreichung einer kontextuell natürlichen Integration. Zu ihrer Bewältigung schlagen wir BrandFusion vor, ein neuartiges Multi-Agenten-Framework mit zwei synergetischen Phasen. In der Offline-Phase (seitens des Werbetreibenden) erstellen wir eine Markenwissensbasis durch das Ausloten von Modell-Priors und die Anpassung an neue Marken mittels leichtgewichtiger Feinabstimmung. In der Online-Phase (nutzerseitig) verfeinern fünf Agenten gemeinsam Nutzer-Prompts durch iterative Optimierung, nutzen die gemeinsame Wissensbasis und Echtzeit-Kontextverfolgung, um Markensichtbarkeit und semantische Übereinstimmung zu gewährleisten. Experimente mit 18 etablierten und 2 individuellen Marken über mehrere state-of-the-art T2V-Modelle hinweg zeigen, dass BrandFusion Baseline-Methoden signifikant in Bezug auf semantische Bewahrung, Markenerkennbarkeit und Integrationsnatürlichkeit übertrifft. Menschliche Bewertungen bestätigen weiterhin eine höhere Nutzerzufriedenheit und etablieren einen praktischen Weg zur nachhaltigen Monetarisierung von T2V.

Belohnungsvorhersage mit faktorisierten Weltzuständen
Reward Prediction with Factorized World States

Mar 10

ByYijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung

Agenten müssen Handlungsergebnisse ableiten und Aktionen auswählen, die ein Belohnungssignal maximieren, das anzeigt, wie nah das Ziel erreicht ist. Überwachtes Lernen von Belohnungsmodellen könnte Verzerrungen einführen, die den Trainingsdaten inhärent sind, und so die Generalisierung auf neue Ziele und Umgebungen einschränken. In dieser Arbeit untersuchen wir, ob allein gut definierte Weltzustandsrepräsentationen eine genaue Belohnungsvorhersage über Domänen hinweg ermöglichen können. Um dies zu adressieren, führen wir StateFactory ein, eine faktorisierte Repräsentationsmethode, die unstrukturierte Beobachtungen mithilfe von Sprachmodellen in eine hierarchische Objekt-Attribut-Struktur transformiert. Diese strukturierte Repräsentation erlaubt es, Belohnungen natürlich als semantische Ähnlichkeit zwischen dem aktuellen Zustand und dem Zielzustand unter hierarchischer Nebenbedingung zu schätzen. Insgesamt ermöglicht die durch StateFactory induzierte kompakte Repräsentationsstruktur starke Generalisierungsfähigkeiten für Belohnungen. Wir evaluieren auf RewardPrediction, einem neuen Benchmark-Datensatz, der fünf verschiedene Domänen umfasst und 2.454 einzigartige Aktions-Beobachtungs-Trajektorien mit schrittweisen Ground-Truth-Belohnungen enthält. Unsere Methode zeigt vielversprechende Zero-Shot-Ergebnisse im Vergleich zu sowohl VLWM-critic- als auch LLM-as-a-Judge-Belohnungsmodellen und erreicht jeweils eine um 60 % bzw. 8 % geringere EPIC-Distanz. Darüber hinaus überträgt sich diese überlegene Belohnungsqualität erfolgreich in eine verbesserte Planungsleistung von Agenten, was zu Steigerungen der Erfolgsrate von +21,64 % auf AlfWorld und +12,40 % auf ScienceWorld gegenüber reaktiven System-1-Policies führt und die Planung von System-2-Agenten verbessert. Projektseite: https://statefactory.github.io

BiCLIP: Domänenkanonisierung durch strukturierte geometrische Transformation
BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Mar 9

ByPranav Mantini, Shishir K. Shah

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben bemerkenswerte Zero-Shot-Fähigkeiten demonstriert, doch die Anpassung dieser Modelle an spezialisierte Domänen bleibt eine große Herausforderung. Aufbauend auf aktuellen theoretischen Erkenntnissen, die nahelegen, dass unabhängig trainierte VLMs durch eine kanonische Transformation verbunden sind, erweitern wir dieses Verständnis auf das Konzept der Domänen. Wir stellen die Hypothese auf, dass Bildmerkmale über verschiedene Domänen hinweg durch eine kanonisierte geometrische Transformation verbunden sind, die mit einer kleinen Menge von Ankerpunkten rekonstruiert werden kann. Few-Shot-Klassifikation bietet ein natürliches Setting für diese Ausrichtung, da die begrenzten gelabelten Stichproben als Ankerpunkte dienen, die zur Schätzung dieser Transformation benötigt werden. Motiviert durch diese Hypothese stellen wir BiCLIP vor, einen Rahmen, der eine gezielte Transformation auf multimodale Merkmale anwendet, um die cross-modale Ausrichtung zu verbessern. Unser Ansatz zeichnet sich durch seine extreme Einfachheit und geringe Parameterzahl aus. Umfangreiche Auswertungen über 11 Standard-Benchmarks, darunter EuroSAT, DTD und FGVCAircraft, zeigen, dass BiCLIP durchweg state-of-the-art Ergebnisse erzielt. Darüber hinaus liefern wir eine empirische Bestätigung bestehender geometrischer Erkenntnisse durch Analyse der Orthogonalität und Winkelverteilung der gelernten Transformationen, was bestätigt, dass strukturierte Ausrichtung der Schlüssel zu robuster Domänenanpassung ist. Code ist verfügbar unter https://github.com/QuantitativeImagingLaboratory/BilinearCLIP

SAHOO: Geschützte Ausrichtung für Optimierungsziele höherer Ordnung in rekursiver Selbstverbesserung
SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Mar 6

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Rekursive Selbstverbesserung wird von der Theorie zur Praxis: Moderne Systeme können ihre eigenen Ausgaben kritisieren, überarbeiten und bewerten, doch iterative Selbstmodifikation birgt das Risiko subtiler Ziellinienabweichungen. Wir stellen SAHOO vor, einen praktischen Rahmen zur Überwachung und Kontrolle dieser Abweichung durch drei Sicherheitsvorkehrungen: (i) den Goal Drift Index (GDI), einen gelernten Multi-Signal-Detektor, der semantische, lexikalische, strukturelle und verteilungsbezogene Maße kombiniert; (ii) Erhaltungsprüfungen für Einschränkungen, die sicherheitskritische Invarianten wie syntaktische Korrektheit und Vermeidung von Halluzinationen durchsetzen; und (iii) Quantifizierung des Regressionsrisikos, um Verbesserungszyklen zu kennzeichnen, die frühere Gewinne rückgängig machen. In 189 Aufgaben aus den Bereichen Code-Generierung, mathematisches Denken und Wahrhaftigkeit erzielt SAHOO erhebliche Qualitätssteigerungen, einschließlich einer Verbesserung von 18,3 Prozent bei Code-Aufgaben und 16,8 Prozent beim Denken, wobei die Einschränkungen in zwei Domänen erhalten bleiben und die Verstöße gegen Wahrhaftigkeit gering bleiben. Die Schwellenwerte werden an einem kleinen Validierungssatz von 18 Aufgaben über drei Zyklen kalibriert. Wir kartieren weiterhin die Fähigkeits-Ziellinien-Grenze, die effiziente frühe Verbesserungszyklen, aber später steigende Ziellinienkosten zeigt und domänenspezifische Spannungen wie Flüssigkeit versus Faktizität offenlegt. SAHOO macht die Erhaltung der Ziellinientreue während der rekursiven Selbstverbesserung somit messbar, einsetzbar und systematisch großskalig validierbar.

Mikro-Diffusionskompression – Binärbaum-Tweedie-Entrauschung zur Online-Wahrscheinlichkeitsschätzung
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

Mar 9

ByRoberto Tacconelli

Wir stellen Midicoth vor, ein verlustfreies Kompressionssystem, das eine Mikrodiffusions-Entrauschungsschicht zur Verbesserung von Wahrscheinlichkeitsschätzungen einführt, die von adaptiven statistischen Modellen erzeugt werden. In Kompressoren wie Prediction by Partial Matching (PPM) werden Wahrscheinlichkeitsschätzungen durch einen Prior geglättet, um spärliche Beobachtungen zu handhaben. Wenn Kontexte nur wenige Male beobachtet wurden, dominiert dieser Prior die Vorhersage und erzeugt Verteilungen, die erheblich flacher sind als die tatsächliche Quellverteilung, was zu Kompressionsineffizienz führt. Midicoth behebt diese Einschränkung, indem es die Prior-Glättung als Schrumpfungsprozess behandelt und einen umgekehrten Entrauschungsschritt anwendet, der die vorhergesagten Wahrscheinlichkeiten anhand empirischer Kalibrierungsstatistiken korrigiert. Um diese Korrektion dateneffizient zu gestalten, zerlegt die Methode jede Byte-Vorhersage in eine Hierarchie binärer Entscheidungen entlang eines bitweisen Baums. Dadurch wird ein einzelnes 256-stufiges Kalibrierungsproblem in eine Abfolge binärer Kalibrierungsaufgaben umgewandelt, was eine zuverlässige Schätzung der Korrekturterme aus relativ wenigen Beobachtungen ermöglicht. Der Entrauschungsprozess wird in mehreren aufeinanderfolgenden Schritten angewendet, sodass jede Stufe verbleibende Vorhersagefehler der vorherigen Stufe verfeinern kann. Die Mikrodiffusionsschicht fungiert als leichtgewichtige Kalibrierungsstufe nach der endgültigen Kombination aller Modellvorhersagen, wodurch sie systematische Verzerrungen in der endgültigen Wahrscheinlichkeitsverteilung korrigieren kann. Midicoth kombiniert fünf vollständig online arbeitende Komponenten: ein adaptives PPM-Modell, ein Modell für Langstrecken-Übereinstimmungen, ein triebasiertes Wortmodell, ein Kontextmodell hoher Ordnung und den Mikrodiffusions-Entstörer als abschließende Stufe.

Compiler-First-Zustandsraum-Dualität und portables O(1)-autoregressives Caching für Inferenz
Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference

Mar 10

ByCosmo Santoni

State-Space-Model-Releases sind typischerweise mit fusionierten CUDA- und Triton-Kerneln gekoppelt, was eine feste Abhängigkeit von NVIDIA-Hardware zur Folge hat. Wir zeigen, dass sich Mamba-2s State-Space-Dualitätsalgorithmus – diagonale Zustandsstruktur, chunk-fähige Rekurrenz und einsum-dominierte Berechnungen mit statischem Kontrollfluss – sauber auf das abbildet, was XLAs Fusions- und Tiling-Pässe tatsächlich optimieren, wodurch benutzerdefinierte Kernel optional statt erforderlich werden. Wir implementieren den vollständigen Inferenzpfad (Prefill, gecachte autoregressive Decodierung) als geformte Standardprimitive unter XLA, ohne handgeschriebene Kernel, und realisieren das theoretische O(1)-Zustandsmanagement der Architektur als einen kompilierten On-Device-Cache, der während der Generierung keine Host-Synchronisation erfordert. Die Implementierung läuft unverändert auf CPU, NVIDIA-GPU und Google Cloud TPU aus einer einzigen JAX-Quelle. Auf TPU v6e über fünf Modellgrößen (130M–2,7B Parameter) erreicht der von XLA generierte Code etwa 140 TFLOPS beim Single-Stream-Prefill (15% MFU) und bis zu 64% Bandbreitenauslastung beim Decode. Greedy-Decoding stimmt token-für-token mit der PyTorch/CUDA-Referenz über 64 Schritte überein, mit einer Übereinstimmung der Hidden-States innerhalb der float32-Rundungstoleranz. Das Muster überträgt sich auf jede SSM-Rekurrenz, die dieselben strukturellen Bedingungen erfüllt, auf jeder Plattform mit einem ausgereiften XLA-Backend. Die Implementierung ist öffentlich verfügbar unter https://github.com/CosmoNaught/mamba2-jax und in die Bonsai JAX Model Library integriert.

Bolbosh: Skriptbewusstes Flow Matching für kaschmirische Sprachsynthese
Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Mar 8

ByTajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir

Kashmiri wird von etwa 7 Millionen Menschen gesprochen, ist jedoch in der Sprachtechnologie nach wie vor kritisch unterversorgt, trotz seines offiziellen Status und seines reichen linguistischen Erbes. Das Fehlen robuster Text-to-Speech (TTS)-Systeme schränkt die digitale Barrierefreiheit und inklusive Mensch-Computer-Interaktion für Muttersprachler ein. In dieser Arbeit stellen wir das erste dedizierte, quelloffene neuronale TTS-System für Kashmiri vor. Wir zeigen, dass Zero-Shot-Multilingual-Baselines, die für indische Sprachen trainiert wurden, keine verständliche Sprache erzeugen können und einen Mean Opinion Score (MOS) von nur 1,86 erreichen, was hauptsächlich auf eine unzureichende Modellierung der persisch-arabischen Diakritika und sprachspezifischen Phonotaktik zurückzuführen ist. Um diese Einschränkungen zu adressieren, schlagen wir Bolbosh vor, eine überwachte cross-linguale Adaptionsstrategie basierend auf Optimal Transport Conditional Flow Matching (OT-CFM) innerhalb des Matcha-TTS-Frameworks. Dies ermöglicht eine stabile Alignment-Bildung bei begrenzten gepaarten Daten. Darüber hinaus führen wir eine dreistufige Pipeline zur akustischen Verbesserung ein, bestehend aus Entfernung von Nachhall, Stille-Trimmung und Lautstärkenormalisierung, um heterogene Sprachquellen zu vereinheitlichen und das Alignment-Lernen zu stabilisieren. Der Modell-Wortschatz wurde erweitert, um kaschmirische Grapheme explizit zu kodieren und feine Vokalunterschiede zu bewahren. Unser System erreicht einen MOS von 3,63 und eine Mel-Cepstral Distortion (MCD) von 3,73 und übertrifft multilinguale Baselines deutlich, wodurch ein neuer Maßstab für die kaschmirische Sprachsynthese gesetzt wird. Unsere Ergebnisse demonstrieren, dass skriptbewusste und überwachte, flow-basierte Adaption entscheidend für TTS mit geringen Ressourcen in diakritikasensitiven Sprachen sind. Code und Daten sind verfügbar unter: https://github.com/gaash-lab/Bolbosh.

ConFu: Betrachte die Zukunft für besseres spekulatives Sampling
ConFu: Contemplate the Future for Better Speculative Sampling

Mar 9

ByZongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun

Spekulatives Decodieren hat sich als leistungsstarker Ansatz zur Beschleunigung der Inferenz großer Sprachmodelle (LLMs) etabliert, bei dem leichte Draft-Modelle eingesetzt werden, um Kandidatentokens vorzuschlagen, die anschließend vom Zielmodell verifiziert werden. Die Effektivität dieses Paradigmas hängt entscheidend von der Qualität des Draft-Modells ab. Obwohl neuere Fortschritte wie die EAGLE-Serie state-of-the-art Beschleunigung erreichen, bleiben bestehende Draft-Modelle durch Fehlerakkumulation eingeschränkt: Sie basieren ihre Vorhersagen nur auf dem aktuellen Präfix, was dazu führt, dass ihre Vorhersagen über mehrere Schritte vom Zielmodell abweichen. In dieser Arbeit schlagen wir ConFu (Contemplate the Future) vor, ein neuartiges Framework für spekulatives Decodieren, das Draft-Modellen ermöglicht, die zukünftige Richtung der Generierung vorauszusehen. ConFu führt (i) Contemplate-Tokens und Soft-Prompts ein, die es dem Draft-Modell erlauben, zukunftsorientierte Signale vom Zielmodell zu minimalen Kosten zu nutzen, (ii) einen Mechanismus für dynamische Contemplate-Tokens mit MoE (Mixture of Experts), um kontextbewusste Zukunftsprognosen zu ermöglichen, und (iii) ein Trainingsframework mit Anchor-Token-Sampling und Zukunftsprognose-Replikation, das robuste Zukunftsprognosen erlernt. Experimente zeigen, dass ConFu die Token-Akzeptanzraten und die Generierungsgeschwindigkeit gegenüber EAGLE-3 über verschiedene Downstream-Aufgaben mit Llama-3-3B- und 8B-Modellen um 8–11 % steigert. Wir sind der Ansicht, dass unsere Arbeit erstmals spekulatives Decodieren mit kontinuierlichen Reasoning-Tokens verbindet und damit eine neue Richtung zur Beschleunigung der LLM-Inferenz aufzeigt.

TALON: Testzeit-adaptive Lernmethode für die dynamische Kategorienentdeckung
TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Mar 9

ByYanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li

On-the-fly Category Discovery (OCD) zielt darauf ab, bekannte Kategorien zu erkennen und gleichzeitig neue aus einem ungelabelten Online-Datenstrom zu entdecken, wobei ein Modell verwendet wird, das nur auf gelabelten Daten trainiert wurde. Bestehende Ansätze frieren den offline trainierten Merkmalsextraktor ein und verwenden ein hash-basiertes Framework, das Merkmale in binäre Codes als Klassenprototypen quantisiert. Die Entdeckung neuer Kategorien mit einer festen Wissensbasis ist jedoch kontraintuitiv, da das Lernpotenzial der eingehenden Daten vollständig vernachlässigt wird. Zusätzlich führt die Merkmalsquantisierung zu Informationsverlust, verringert die Darstellungsfähigkeit und verstärkt die Varianz innerhalb einer Klasse. Dies führt häufig zu einer Kategorie-Explosion, bei der eine einzelne Klasse in mehrere Pseudoklassen fragmentiert wird. Um diese Einschränkungen zu überwinden, schlagen wir ein Test-Time-Adaptation-Framework vor, das Lernen durch Entdeckung ermöglicht. Es integriert zwei komplementäre Strategien: ein semantikbewusstes Prototypen-Update und ein stabiles Encoder-Update zur Testzeit. Ersteres verfeinert Klassenprototypen dynamisch zur Verbesserung der Klassifikation, während Letzteres neue Informationen direkt in den Parameterraum integriert. Gemeinsam ermöglichen diese Komponenten dem Modell, seine Wissensbasis kontinuierlich mit neu auftretenden Stichproben zu erweitern. Darüber hinaus führen wir in der Offline-Phase eine margebewusste Logit-Kalibrierung ein, um die Abstände zwischen den Klassen zu vergrößern und die Kompaktheit innerhalb der Klassen zu verbessern und so Embedding-Raum für zukünftige Klassenentdeckungen freizuhalten. Experimente auf standardisierten OCD-Benchmarks zeigen, dass unsere Methode hash-basierte State-of-the-Art-Ansätze erheblich übertrifft und bemerkenswerte Verbesserungen bei der Genauigkeit für neue Klassen erzielt, während sie die Kategorie-Explosion wirksam eindämmt. Der Code ist öffentlich verfügbar unter \url{https://github.com/ynanwu/TALON}.

Jenseits des Test-Time Trainings: Lernen zu Schlussfolgern durch hardwareeffiziente optimale Steuerung
Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Mar 10

ByPeihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal

Assoziatives Gedächtnis bildet seit langem die Grundlage für den Entwurf sequenzieller Modelle. Über reine Erinnerung hinaus schließen Menschen durch die Projektion zukünftiger Zustände und die Auswahl zielgerichteter Aktionen – eine Fähigkeit, die moderne Sprachmodelle zunehmend benötigen, aber nicht von Haus aus besitzen. Während frühere Arbeiten Verstärkendes Lernen oder Test-Time-Training nutzen, bleibt die Planung extern zur Modellarchitektur. Wir formulieren Schlussfolgern als optimale Steuerung und führen die Test-Time-Control (TTC)-Schicht ein, die zur Inferenzzeit eine Finite-Horizon-LQR-Planung über latente Zustände durchführt, eine Wertfunktion innerhalb neuronaler Architekturen repräsentiert und diese als verschachteltes Ziel nutzt, um Planung vor der Vorhersage zu ermöglichen. Um Skalierbarkeit zu gewährleisten, leiten wir einen hardwareeffizienten LQR-Löser basierend auf einer symplektischen Formulierung ab und implementieren ihn als fused CUDA-Kernel, was parallele Ausführung mit minimalem Overhead ermöglicht. Als Adapter in vortrainierte LLMs integriert, verbessern TTC-Schichten die mathematische Reasoning-Leistung um bis zu +27,8 % auf MATH-500 und 2-3-fache Pass@8-Verbesserungen auf AMC und AIME. Dies zeigt, dass die Einbettung optimaler Steuerung als architektonische Komponente einen effektiven und skalierbaren Mechanismus für Schlussfolgern jenseits von Test-Time-Training bereitstellt.

Eine textnative Benutzeroberfläche für generative Videoerstellung
A Text-Native Interface for Generative Video Authoring

Mar 10

ByXingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li

Jeder kann seine Geschichten im Freitextformat verfassen – das lernen wir alle in der Schule. Doch das Geschichtenerzählen per Video erfordert das Erlernen spezialisierter und komplexer Werkzeuge. In diesem Artikel stellen wir Doki vor, eine textbasierte Schnittstelle für generative Videoproduktion, die die Videocreation mit dem natürlichen Prozess des Textverfassens in Einklang bringt. Bei Doki ist das Schreiben von Text die primäre Interaktion: Innerhalb eines einzigen Dokuments definieren Nutzer Assets, strukturieren Szenen, erstellen Einstellungen, verfeinern Schnitte und fügen Audio hinzu. Wir legen die Designprinzipien dieses Text-zuerst-Ansatzes dar und demonstrieren die Möglichkeiten von Doki anhand einer Reihe von Beispielen. Um die praktische Anwendbarkeit zu bewerten, führten wir eine einwöchige Studie mit Teilnehmern unterschiedlicher Videoproduktionserfahrung durch. Diese Arbeit leistet einen grundlegenden Beitrag zur Weiterentwicklung generativer Videoschnittstellen, indem sie eine leistungsstarke und zugängliche neue Methode zur Gestaltung visueller Geschichten aufzeigt.