ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

VibeVoice Technischer Bericht
VibeVoice Technical Report

Aug 26
ByZhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
18
1

Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell, das darauf ausgelegt ist, langformatige Sprache mit mehreren Sprechern zu synthetisieren, indem es Next-Token-Diffusion verwendet, eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch autoregressives Generieren latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, bei gleichbleibender Leistung. Der Tokenizer bewahrt effektiv die Audioqualität, während er die Recheneffizienz für die Verarbeitung langer Sequenzen erheblich steigert. Somit kann VibeVoice langformatige Sprache von bis zu 90 Minuten (in einem 64K-Kontextfenster) mit maximal 4 Sprechern synthetisieren, den authentischen Gesprächs-„Vibe“ einfangen und sowohl Open-Source- als auch proprietäre Dialogmodelle übertreffen.

2

Spacer: Auf dem Weg zur gezielten wissenschaftlichen Inspiration
Spacer: Towards Engineered Scientific Inspiration

Aug 25
ByMinhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
18
1

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die automatisierte wissenschaftliche Forschung zur nächsten Frontlinie auf dem Weg zur künstlichen Superintelligenz gemacht. Allerdings sind diese Systeme entweder auf Aufgaben mit begrenztem Umfang oder auf die eingeschränkten kreativen Fähigkeiten von LLMs beschränkt. Wir stellen Spacer vor, ein wissenschaftliches Entdeckungssystem, das kreative und faktenbasierte Konzepte ohne externe Intervention entwickelt. Spacer versucht dies durch „bewusste Dekontextualisierung“ zu erreichen, einen Ansatz, der Informationen in atomare Einheiten – Schlüsselwörter – zerlegt und Kreativität aus unerforschten Verbindungen zwischen ihnen schöpft. Spacer besteht aus (i) Nuri, einer Inspirationsmaschine, die Schlüsselwortgruppen erstellt, und (ii) der Manifesting Pipeline, die diese Gruppen in ausgefeilte wissenschaftliche Aussagen verfeinert. Nuri extrahiert neuartige, vielversprechende Schlüsselwortgruppen aus einem Schlüsselwortgraphen, der mit 180.000 akademischen Publikationen aus biologischen Fachgebieten erstellt wurde. Die Manifesting Pipeline findet Verbindungen zwischen Schlüsselwörtern, analysiert ihre logische Struktur, überprüft ihre Plausibilität und entwirft schließlich originelle wissenschaftliche Konzepte. Laut unseren Experimenten klassifiziert das Bewertungsmetrik von Nuri hochrangige Publikationen mit einem AUROC-Score von 0,737 genau. Unsere Manifesting Pipeline rekonstruiert auch erfolgreich Kernkonzepte aus den neuesten Artikeln führender Fachzeitschriften allein anhand ihrer Schlüsselwortgruppen. Ein LLM-basiertes Bewertungssystem schätzt, dass diese Rekonstruktion in über 85 % der Fälle korrekt war. Schließlich zeigt unsere Analyse des Embedding-Raums, dass die Ausgaben von Spacer im Vergleich zu denen von State-of-the-Art-LLMs deutlich ähnlicher zu führenden Publikationen sind.

3

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Aug 25
ByWeida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
15
1

Wir stellen CMPhysBench vor, einen neuartigen Benchmark, der die Fähigkeiten von Large Language Models (LLMs) in der Festkörperphysik bewertet. CMPhysBench besteht aus mehr als 520 sorgfältig kuratierten Fragen auf Graduiertenebene, die sowohl repräsentative Teilgebiete als auch grundlegende theoretische Rahmen der Festkörperphysik abdecken, wie Magnetismus, Supraleitung, stark korrelierte Systeme usw. Um ein tiefes Verständnis des Problemlösungsprozesses zu gewährleisten, konzentrieren wir uns ausschließlich auf Rechenaufgaben, die von den LLMs verlangen, eigenständig umfassende Lösungen zu generieren. Gleichzeitig führen wir, basierend auf baumbasierten Darstellungen von Ausdrücken, den Scalable Expression Edit Distance (SEED)-Score ein, der fein abgestufte (nicht-binäre) Teilpunkte bietet und eine genauere Bewertung der Ähnlichkeit zwischen Vorhersage und Grundwahrheit ermöglicht. Unsere Ergebnisse zeigen, dass selbst die besten Modelle, wie Grok-4, nur einen durchschnittlichen SEED-Score von 36 und eine Genauigkeit von 28 % auf CMPhysBench erreichen, was eine erhebliche Fähigkeitslücke, insbesondere in diesem praktischen und fortschrittlichen Bereich im Vergleich zur traditionellen Physik, verdeutlicht. Der Code und der Datensatz sind öffentlich unter https://github.com/CMPhysBench/CMPhysBench verfügbar.

4

OmniHuman-1.5: Verankerung eines aktiven Geistes in Avataren durch kognitive Simulation
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Aug 26
ByJianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
11
1

Bestehende Video-Avatar-Modelle können flüssige menschliche Animationen erzeugen, haben jedoch Schwierigkeiten, über eine bloße physische Ähnlichkeit hinauszugehen und das authentische Wesen einer Figur einzufangen. Ihre Bewegungen sind typischerweise mit niedrigschwelligen Hinweisen wie dem Audio-Rhythmus synchronisiert, ohne ein tieferes semantisches Verständnis von Emotion, Absicht oder Kontext. Um diese Lücke zu schließen, schlagen wir ein Framework vor, das darauf abzielt, Charakteranimationen zu generieren, die nicht nur physisch plausibel, sondern auch semantisch kohärent und ausdrucksstark sind. Unser Modell, OmniHuman-1.5, basiert auf zwei wesentlichen technischen Beiträgen. Erstens nutzen wir Multimodale Große Sprachmodelle, um eine strukturierte textuelle Repräsentation von Bedingungen zu synthetisieren, die eine hochrangige semantische Führung bietet. Diese Führung lenkt unseren Bewegungsgenerator über eine einfache rhythmische Synchronisation hinaus und ermöglicht die Erzeugung von Handlungen, die kontextuell und emotional resonanzfähig sind. Zweitens führen wir, um die effektive Fusion dieser multimodalen Eingaben zu gewährleisten und Intermodalitätskonflikte zu mildern, eine spezialisierte Multimodale DiT-Architektur mit einem neuartigen Pseudo Last Frame-Design ein. Die Synergie dieser Komponenten ermöglicht es unserem Modell, die gemeinsame Semantik von Audio, Bildern und Text präzise zu interpretieren und dadurch Bewegungen zu erzeugen, die tiefgreifend mit der Figur, der Szene und dem linguistischen Inhalt kohärent sind. Umfangreiche Experimente zeigen, dass unser Modell führende Leistungen über eine umfassende Reihe von Metriken hinweg erzielt, einschließlich Lippen-Synchronisationsgenauigkeit, Videoqualität, Bewegungsnatürlichkeit und semantischer Konsistenz mit textuellen Eingabeaufforderungen. Darüber hinaus zeigt unser Ansatz eine bemerkenswerte Erweiterbarkeit auf komplexe Szenarien, wie solche mit mehreren Personen und nicht-menschlichen Subjekten. Homepage: https://omnihuman-lab.github.io/v1_5/

5

UltraMemV2: Speichernetzwerke mit Skalierung auf 120 Milliarden Parameter und überlegenem Langzeitkontext-Lernen
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Aug 26
ByZihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
10
1

Während Mixture of Experts (MoE)-Modelle durch die Aktivierung nur von Teilmengen der Parameter eine bemerkenswerte Effizienz erreichen, leiden sie unter hohen Speicherzugriffskosten während der Inferenz. Speicherschicht-Architekturen bieten eine attraktive Alternative mit sehr wenigen Speicherzugriffen, aber bisherige Versuche wie UltraMem haben nur die Leistung von 2-Expert-MoE-Modellen erreicht und liegen deutlich hinter den state-of-the-art 8-Expert-Konfigurationen zurück. Wir präsentieren UltraMemV2, eine neu gestaltete Speicherschicht-Architektur, die diese Leistungslücke schließt. Unser Ansatz führt fünf wesentliche Verbesserungen ein: die Integration von Speicherschichten in jeden Transformer-Block, die Vereinfachung der Wertexpansion durch einzelne lineare Projektionen, die Übernahme der FFN-basierten Wertverarbeitung von PEER, die Implementierung einer prinzipienbasierten Parameterinitialisierung und die Neubewertung der Speicher-zu-FFN-Berechnungsverhältnisse. Durch umfangreiche Evaluierungen zeigen wir, dass UltraMemV2 bei gleicher Berechnung und Parametern eine Leistungsparität mit 8-Expert-MoE-Modellen erreicht, jedoch mit deutlich geringeren Speicherzugriffen. Insbesondere zeigt UltraMemV2 eine überlegene Leistung bei speicherintensiven Aufgaben, mit Verbesserungen von +1,6 Punkten bei der Langzeitkontext-Memorierung, +6,2 Punkten bei der Mehrrunden-Memorierung und +7,9 Punkten beim In-Context-Lernen. Wir validieren unseren Ansatz im großen Maßstab mit Modellen bis zu 2,5B aktivierten Parametern aus insgesamt 120B Parametern und stellen fest, dass die Aktivierungsdichte einen größeren Einfluss auf die Leistung hat als die Gesamtzahl der spärlichen Parameter. Unsere Arbeit bringt Speicherschicht-Architekturen auf Leistungsparität mit state-of-the-art MoE-Modellen und präsentiert eine überzeugende Alternative für effiziente spärliche Berechnungen.

6

VoxHammer: Trainingsfreie präzise und kohärente 3D-Bearbeitung im nativen 3D-Raum
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Aug 26
ByLin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
7
1

Die lokale 3D-Bearbeitung spezifizierter Regionen ist entscheidend für die Spieleindustrie und die Roboterinteraktion. Aktuelle Methoden bearbeiten typischerweise gerenderte Multi-View-Bilder und rekonstruieren anschließend 3D-Modelle, stoßen jedoch auf Herausforderungen bei der präzisen Bewahrung unveränderter Regionen und der Gesamtkohärenz. Inspiriert von strukturierten 3D-Generativmodellen schlagen wir VoxHammer vor, einen neuartigen trainingsfreien Ansatz, der präzise und kohärente Bearbeitungen im 3D-Latentraum durchführt. Gegeben ein 3D-Modell, prognostiziert VoxHammer zunächst dessen Inversionspfad und erhält dessen invertierte Latents und Key-Value-Tokens zu jedem Zeitpunkt. Anschließend, in der Denoising- und Bearbeitungsphase, ersetzen wir die Denoising-Features der bewahrten Regionen mit den entsprechenden invertierten Latents und zwischengespeicherten Key-Value-Tokens. Durch die Beibehaltung dieser kontextuellen Features gewährleistet dieser Ansatz eine konsistente Rekonstruktion der bewahrten Bereiche und eine kohärente Integration der bearbeiteten Teile. Um die Konsistenz der bewahrten Regionen zu bewerten, haben wir Edit3D-Bench konstruiert, einen menschlich annotierten Datensatz, der Hunderte von Proben umfasst, jede mit sorgfältig beschrifteten 3D-Bearbeitungsregionen. Experimente zeigen, dass VoxHammer bestehende Methoden sowohl in Bezug auf die 3D-Konsistenz der bewahrten Regionen als auch auf die Gesamtqualität deutlich übertrifft. Unsere Methode verspricht die Synthese hochwertiger bearbeiteter gepaarter Daten und legt damit die Datenbasis für die In-Context-3D-Generierung. Siehe unsere Projektseite unter https://huanngzh.github.io/VoxHammer-Page/.

7

TreePO: Überbrückung der Lücke zwischen Policy-Optimierung, Effizienz und Inferenzeffizienz durch heuristische baumbasierte Modellierung
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Aug 24
ByYizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
6
1

Jüngste Fortschritte bei der Ausrichtung großer Sprachmodelle durch Reinforcement Learning haben bemerkenswerte Erfolge bei der Lösung komplexer Denkprobleme erzielt, jedoch auf Kosten teurer On-Policy-Rollouts und einer begrenzten Exploration verschiedener Denkpfade. In dieser Arbeit stellen wir TreePO vor, einen selbstgesteuerten Rollout-Algorithmus, der die Sequenzerzeugung als einen baumstrukturierten Suchprozess betrachtet. TreePO besteht aus einer dynamischen Baum-Sampling-Politik und einer festen Segment-Decodierung und nutzt lokale Unsicherheit, um zusätzliche Verzweigungen zu gewährleisten. Durch die Amortisierung von Berechnungen über gemeinsame Präfixe und das frühzeitige Beschneiden von Pfaden mit geringem Wert reduziert TreePO die Rechenlast pro Update erheblich, während es die Explorationsvielfalt bewahrt oder sogar verbessert. Zu den wichtigsten Beiträgen gehören: (1) ein segmentweiser Sampling-Algorithmus, der die KV-Cache-Last durch zusammenhängende Segmente verringert und neue Verzweigungen mit einem Frühstopp-Mechanismus erzeugt; (2) eine baumbasierte Segment-Level-Vorteilsschätzung, die sowohl globale als auch lokale Proximale Policy-Optimierung berücksichtigt; und (3) eine Analyse der Wirksamkeit von Wahrscheinlichkeits- und Qualitäts-getriebener dynamischer Divergenz und Fallback-Strategie. Wir validieren empirisch die Leistungssteigerung von TreePO anhand einer Reihe von Denk-Benchmarks und die Effizienzsteigerung bei GPU-Stunden von 22\% bis zu 43\% des Sampling-Designs für die trainierten Modelle, während gleichzeitig eine Reduzierung von bis zu 40\% auf Trajektorienebene und 35\% auf Token-Ebene bei der Sampling-Berechnung für bestehende Modelle gezeigt wird. Während TreePO eine kostenlose Verbesserung der Inferenzeffizienz bietet, zeigt es einen praktischen Weg zur Skalierung von RL-basiertem Post-Training mit weniger Proben und geringerem Rechenaufwand. Die Homepage befindet sich unter https://m-a-p.ai/TreePO.

8

Pixie: Schnelles und verallgemeinerbares überwachtes Lernen von 3D-Physik aus Pixeln
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Aug 20
ByLong Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
6
1

Das Erschließen der physikalischen Eigenschaften von 3D-Szenen aus visuellen Informationen ist eine entscheidende, aber herausfordernde Aufgabe für die Erstellung interaktiver und realistischer virtueller Welten. Während Menschen Materialeigenschaften wie Elastizität oder Steifigkeit intuitiv erfassen, verlassen sich bestehende Methoden oft auf langsame, szenenspezifische Optimierungen, was ihre Generalisierbarkeit und Anwendbarkeit einschränkt. Um dieses Problem zu lösen, stellen wir PIXIE vor, eine neuartige Methode, die ein generalisierbares neuronales Netzwerk trainiert, um physikalische Eigenschaften über mehrere Szenen hinweg ausschließlich aus 3D-visuellen Merkmalen unter Verwendung von überwachten Verlustfunktionen vorherzusagen. Einmal trainiert, kann unser Feedforward-Netzwerk schnelle Inferenzen plausibler Materialfelder durchführen, die in Kombination mit einer gelernten statischen Szenendarstellung wie Gaussian Splatting realistische Physiksimulationen unter externen Kräften ermöglichen. Um diese Forschung zu unterstützen, haben wir auch PIXIEVERSE gesammelt, einen der größten bekannten Datensätze von gepaarten 3D-Assets und physikalischen Materialannotationen. Umfangreiche Auswertungen zeigen, dass PIXIE etwa 1,46-4,39x besser und um Größenordnungen schneller ist als Methoden zur Optimierung zur Testzeit. Durch die Nutzung vortrainierter visueller Merkmale wie CLIP kann unsere Methode auch null-Shot-Generalisierungen auf reale Szenen durchführen, obwohl sie ausschließlich auf synthetischen Daten trainiert wurde. https://pixie-3d.github.io/

9

CineScale: Kostenloses Mittagessen bei der Erzeugung hochauflösender filmischer Visuals
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Aug 21
ByHaonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
4
1

Visuelle Diffusionsmodelle erzielen bemerkenswerte Fortschritte, werden jedoch typischerweise mit begrenzten Auflösungen trainiert, was auf den Mangel an hochauflösenden Daten und eingeschränkte Rechenressourcen zurückzuführen ist. Dies beeinträchtigt ihre Fähigkeit, hochwertige Bilder oder Videos in höheren Auflösungen zu erzeugen. Jüngste Bemühungen haben tuningfreie Strategien erforscht, um das ungenutzte Potenzial der höherauflösenden visuellen Generierung von vortrainierten Modellen zu erschließen. Diese Methoden neigen jedoch immer noch dazu, visuelle Inhalte mit repetitiven Mustern und geringer Qualität zu erzeugen. Das Hauptproblem liegt in der unvermeidlichen Zunahme von Hochfrequenzinformationen, wenn das Modell visuelle Inhalte erzeugt, die seine Trainingsauflösung überschreiten, was zu unerwünschten repetitiven Mustern führt, die sich aus akkumulierten Fehlern ergeben. In dieser Arbeit stellen wir CineScale vor, ein neuartiges Inferenzparadigma, das die höherauflösende visuelle Generierung ermöglicht. Um die verschiedenen Probleme zu bewältigen, die durch die beiden Arten von Video-Generierungsarchitekturen eingeführt werden, schlagen wir spezielle Varianten vor, die auf jede zugeschnitten sind. Im Gegensatz zu bestehenden Basismethoden, die auf die hochauflösende T2I- und T2V-Generierung beschränkt sind, erweitert CineScale den Anwendungsbereich durch die Ermöglichung der hochauflösenden I2V- und V2V-Synthese, die auf modernsten Open-Source-Video-Generierungsframeworks basiert. Umfangreiche Experimente bestätigen die Überlegenheit unseres Paradigmas bei der Erweiterung der Fähigkeiten der höherauflösenden visuellen Generierung sowohl für Bild- als auch für Videomodelle. Bemerkenswerterweise ermöglicht unser Ansatz die 8k-Bildgenerierung ohne jegliches Fine-Tuning und erreicht die 4k-Videogenerierung mit nur minimalem LoRA-Fine-Tuning. Generierte Videobeispiele sind auf unserer Website verfügbar: https://eyeline-labs.github.io/CineScale/.

10

Wan-S2V: Audio-gesteuerte Erzeugung kinematografischer Videos
Wan-S2V: Audio-Driven Cinematic Video Generation

Aug 26
ByXin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
2
1

Aktuelle State-of-the-Art (SOTA)-Methoden für audio-gesteuerte Charakteranimation zeigen vielversprechende Leistungen in Szenarien, die hauptsächlich Sprache und Gesang umfassen. Sie fallen jedoch oft in komplexeren Film- und Fernsehproduktionen zurück, die anspruchsvolle Elemente wie differenzierte Charakterinteraktionen, realistische Körperbewegungen und dynamische Kameraführung erfordern. Um diese langjährige Herausforderung der Erreichung von Filmqualität in der Charakteranimation zu bewältigen, schlagen wir ein audio-gesteuertes Modell vor, das wir als Wan-S2V bezeichnen und das auf Wan aufbaut. Unser Modell erreicht im Vergleich zu bestehenden Ansätzen eine deutlich verbesserte Ausdruckskraft und Detailtreue in filmischen Kontexten. Wir führten umfangreiche Experimente durch und verglichen unsere Methode mit modernsten Modellen wie Hunyuan-Avatar und Omnihuman. Die experimentellen Ergebnisse zeigen durchweg, dass unser Ansatz diese bestehenden Lösungen deutlich übertrifft. Zusätzlich untersuchen wir die Vielseitigkeit unserer Methode durch ihre Anwendungen in der Langform-Videogenerierung und der präzisen Videolippensynchronisationsbearbeitung.

11

QueryBandits zur Halluzinationsminderung: Ausnutzung semantischer Merkmale für verlustfreies Umschreiben
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

Aug 22
ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
2
1

Fortgeschrittene Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) haben zu einer höheren Prävalenz von Halluzinationen geführt; dennoch konzentriert sich die Mehrheit der Arbeiten zur Minderung dieser Probleme auf nachträgliche Filterung anstatt auf die Gestaltung der Anfragen, die sie auslösen. Wir stellen QueryBandits vor, ein Bandit-Framework, das Strategien zur Umformulierung entwickelt, um ein Belohnungsmodell zu maximieren, das die Neigung zu Halluzinationen auf der Grundlage der Empfindlichkeiten von 17 linguistischen Merkmalen der Eingabeanfrage erfasst – und somit LLMs proaktiv davon abhält, Halluzinationen zu generieren. Über 13 diverse QA-Benchmarks und 1.050 lexikalisch veränderte Anfragen pro Datensatz hinweg erreicht unser top-kontextueller QueryBandit (Thompson Sampling) eine Gewinnrate von 87,5 % gegenüber einer Baseline ohne Umformulierung und übertrifft auch Zero-Shot-statische Prompting-Strategien („paraphrasieren“ oder „erweitern“) um 42,6 % bzw. 60,3 %. Somit belegen wir empirisch die Wirksamkeit von QueryBandits bei der Minderung von Halluzinationen durch eine Intervention in Form einer Anfrageumformulierung. Interessanterweise weisen bestimmte statische Prompting-Strategien, die einen beträchtlichen Teil der aktuellen Literatur zur Anfrageumformulierung ausmachen, ein höheres kumulatives Bedauern auf als die Baseline ohne Umformulierung, was darauf hindeutet, dass statische Umformulierungen Halluzinationen verschlimmern können. Darüber hinaus stellen wir fest, dass die konvergierten Gewichtsvektoren der Regressionsmerkmale pro Arm belegen, dass es keine einzelne Umformulierungsstrategie gibt, die für alle Anfragen optimal ist. In diesem Kontext kann eine geführte Umformulierung durch die Ausnutzung semantischer Merkmale mit QueryBandits signifikante Verhaltensänderungen in der Ausgabe durch Forward-Pass-Mechanismen bewirken, wodurch die Notwendigkeit für ein erneutes Training oder eine gradientenbasierte Anpassung entfällt.

12

Autoregressives universelles Modell für die Videosegmentierung
Autoregressive Universal Video Segmentation Model

Aug 26
ByMiran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
1
1

Aktuelle Video-Foundation-Modelle wie SAM2 zeichnen sich durch eine hervorragende Leistung bei der promptgesteuerten Videosegmentierung aus, indem sie Masken als allgemeingültiges Grundelement behandeln. In vielen realen Anwendungen ist jedoch eine ungepromptete Segmentierung erforderlich, die darauf abzielt, alle Objekte in einem Video ohne externe Hinweise zu erkennen und zu verfolgen, was die derzeitige Landschaft in aufgabenspezifische Modelle und Pipelines fragmentiert. Wir reformulieren die Streaming-Videosegmentierung als sequenzielle Maskenvorhersage, analog zum Sprachmodellieren, und führen das Autoregressive Universal Segmentation Model (AUSM) ein, eine einzige Architektur, die sowohl promptgesteuerte als auch ungepromptete Videosegmentierung vereint. Basierend auf neuesten State-Space-Modellen behält AUSM einen festen räumlichen Zustand bei und skaliert auf Videoströme beliebiger Länge. Darüber hinaus sind alle Komponenten von AUSM für paralleles Training über Frames hinweg konzipiert, was erhebliche Beschleunigungen gegenüber iterativem Training ermöglicht. Auf Standard-Benchmarks (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021 und OVIS) übertrifft AUSM bisherige universelle Streaming-Videosegmentierungsmethoden und erreicht bis zu 2,5-mal schnelleres Training bei 16-Frame-Sequenzen.

13

MovieCORE: Kognitive Reasoning in Filmen
MovieCORE: COgnitive REasoning in Movies

Aug 26
ByGueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
1
1

Dieses Paper stellt MovieCORE vor, einen neuartigen Video-Frage-Antwort-Datensatz (VQA), der darauf abzielt, ein tieferes kognitives Verständnis von Film-Inhalten zu erforschen. Im Gegensatz zu bestehenden Datensätzen, die sich auf oberflächliches Verständnis konzentrieren, betont MovieCORE Fragen, die System-2-Denken anregen und dabei spezifisch auf das Videomaterial bezogen bleiben. Wir präsentieren einen innovativen agentenbasierten Brainstorming-Ansatz, bei dem mehrere große Sprachmodelle (LLMs) als Denkagenten eingesetzt werden, um hochwertige Frage-Antwort-Paare zu generieren und zu verfeinern. Um die Qualität des Datensatzes zu bewerten, entwickeln wir eine Reihe von kognitiven Tests, die Tiefe, Denkanstoß-Potenzial und syntaktische Komplexität bewerten. Wir schlagen außerdem ein umfassendes Bewertungsschema vor, um die Leistung von VQA-Modellen bei tieferen kognitiven Aufgaben zu beurteilen. Um die Grenzen bestehender Video-Sprach-Modelle (VLMs) zu überwinden, führen wir ein agentenbasiertes Verbesserungsmodul ein, Agentic Choice Enhancement (ACE), das die Fähigkeiten des Modells zum logischen Schlussfolgern nach dem Training um bis zu 25% verbessert. Unsere Arbeit trägt dazu bei, das Verständnis von Filmen in KI-Systemen voranzutreiben und bietet wertvolle Einblicke in die Fähigkeiten und Grenzen aktueller VQA-Modelle, wenn sie mit anspruchsvolleren, nuancenreicheren Fragen zu filmischem Inhalt konfrontiert werden. Unsere Projektseite, der Datensatz und der Code sind unter https://joslefaure.github.io/assets/html/moviecore.html verfügbar.

14

ThinkDial: Ein offenes Rezept zur Steuerung des Denkaufwands in großen Sprachmodellen
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Aug 26
ByQianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
1
2

Große Sprachmodelle (LLMs) mit Chain-of-Thought-Reasoning haben bemerkenswerte Problemlösungsfähigkeiten demonstriert, doch die Kontrolle ihres Rechenaufwands bleibt eine erhebliche Herausforderung für den praktischen Einsatz. Aktuelle proprietäre Systeme wie die gpt-oss-Serie von OpenAI haben diskrete Betriebsmodi zur intuitiven Steuerung des Reasoning eingeführt, doch die Open-Source-Community hat solche Fähigkeiten weitgehend nicht erreicht. In diesem Artikel stellen wir ThinkDial vor, das erste Open-Recipe-End-to-End-Framework, das gpt-oss-artige kontrollierbares Reasoning durch diskrete Betriebsmodi erfolgreich implementiert. Unser System ermöglicht ein nahtloses Wechseln zwischen drei verschiedenen Reasoning-Regimen: Hochmodus (volle Reasoning-Fähigkeit), Mittelmodus (50 Prozent Token-Reduktion mit <10 Prozent Leistungseinbuße) und Niedrigmodus (75 Prozent Token-Reduktion mit <15 Prozent Leistungseinbuße). Dies erreichen wir durch ein End-to-End-Trainingsparadigma, das die Budgetmodus-Steuerung in die gesamte Pipeline integriert: Budgetmodus-supervised Fine-Tuning, das kontrollierbare Reasoning-Fähigkeiten direkt in den Lernprozess einbettet, und zweiphasiges budgetbewusstes Reinforcement Learning mit adaptiver Belohnungsformung. Umfangreiche Experimente zeigen, dass ThinkDial Zielkompromisse zwischen Kompression und Leistung mit deutlichen Reduktionen der Antwortlänge erreicht, während Leistungsschwellen eingehalten werden. Das Framework zeigt auch starke Generalisierungsfähigkeiten bei Out-of-Distribution-Aufgaben.

15

Schulung von Sprachmodell-Agenten zur Identifizierung von Schwachstellen mit CTF-Dojo
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Aug 25
ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
1
1

Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten gezeigt, wenn sie in ausführbaren Laufzeitumgebungen trainiert werden, insbesondere durch ihre hervorragende Leistung bei Softwareentwicklungsaufgaben mittels verifizierter Feedback-Schleifen. Dennoch bleiben skalierbare und generalisierbare, ausführungsbasierte Umgebungen rar, was den Fortschritt beim Training leistungsfähigerer ML-Agenten einschränkt. Wir stellen CTF-Dojo vor, die erste groß angelegte ausführbare Laufzeitumgebung, die speziell für das Training von LLMs mit verifizierbarem Feedback entwickelt wurde und 658 voll funktionsfähige Capture-The-Flag (CTF)-artige Herausforderungen bietet, die in Docker containerisiert sind und garantierte Reproduzierbarkeit bieten. Um eine schnelle Skalierung ohne manuelle Eingriffe zu ermöglichen, haben wir CTF-Forge entwickelt, eine automatisierte Pipeline, die öffentlich verfügbare Artefakte in wenigen Minuten in einsatzbereite Ausführungsumgebungen umwandelt und damit wochenlange Expertenkonfigurationen überflüssig macht. Wir haben LLM-basierte Agenten mit nur 486 hochwertigen, ausführungsverifizierten Trajektorien aus CTF-Dojo trainiert und dabei absolute Verbesserungen von bis zu 11,6 % gegenüber starken Baselines in drei wettbewerbsfähigen Benchmarks erzielt: InterCode-CTF, NYU CTF Bench und Cybench. Unser bestes 32B-Modell erreicht 31,9 % Pass@1 und setzt damit einen neuen Open-Weight-State-of-the-art, der mit Spitzenmodellen wie DeepSeek-V3-0324 und Gemini-2.5-Flash konkurriert. Indem wir CTF-artige Aufgaben als Benchmark für das Lernen ausführbarer Agenten betrachten, zeigt CTF-Dojo, dass ausführungsbasierte Trainingssignale nicht nur effektiv, sondern entscheidend für die Weiterentwicklung hochleistungsfähiger ML-Agenten sind, ohne auf kostspielige proprietäre Systeme angewiesen zu sein.

16

FastMesh: Effiziente künstlerische Mesh-Generierung durch Komponentenentkopplung
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Aug 26
ByJeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan
0
1

Aktuelle Ansätze zur Netzgenerierung tokenisieren typischerweise Dreiecksnetze in Sequenzen von Tokens und trainieren autoregressive Modelle, um diese Tokens sequenziell zu generieren. Trotz erheblicher Fortschritte verwenden solche Tokensequenzen zwangsläufig Knotenpunkte mehrfach, um Mannigfaltigkeitsnetze vollständig darzustellen, da jeder Knotenpunkt von mehreren Flächen geteilt wird. Diese Redundanz führt zu übermäßig langen Tokensequenzen und ineffizienten Generierungsprozessen. In diesem Artikel schlagen wir ein effizientes Framework vor, das künstlerische Netze erzeugt, indem Knotenpunkte und Flächen separat behandelt werden, wodurch die Redundanz erheblich reduziert wird. Wir verwenden ein autoregressives Modell ausschließlich für die Generierung von Knotenpunkten, wodurch die Anzahl der Tokens auf etwa 23 % derjenigen reduziert wird, die der kompakteste existierende Tokenizer benötigt. Anschließend nutzen wir einen bidirektionalen Transformer, um das Netz in einem einzigen Schritt zu vervollständigen, indem wir Beziehungen zwischen den Knotenpunkten erfassen und die Adjazenzmatrix konstruieren, die die Netzflächen definiert. Um die Generierungsqualität weiter zu verbessern, führen wir einen Treueverstärker ein, der die Positionierung der Knotenpunkte in natürlichere Anordnungen verfeinert, und schlagen ein Nachbearbeitungsframework vor, um unerwünschte Kantenverbindungen zu entfernen. Experimentelle Ergebnisse zeigen, dass unsere Methode eine mehr als 8-fache Geschwindigkeit bei der Netzgenerierung im Vergleich zu modernsten Ansätzen erreicht, während sie eine höhere Netzqualität erzeugt.

17

Entschlüsselung der kognitiven Muster von Large Language Models durch Modulgemeinschaften
Unraveling the cognitive patterns of Large Language Models through module communities

Aug 25
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
0
1

Große Sprachmodelle (LLMs) haben unsere Welt durch bedeutende Fortschritte in Wissenschaft, Technik und Gesellschaft neu gestaltet, mit Anwendungen, die von wissenschaftlichen Entdeckungen und medizinischer Diagnostik bis hin zu Chatbots reichen. Trotz ihrer Allgegenwärtigkeit und Nützlichkeit bleiben die zugrunde liegenden Mechanismen von LLMs in Milliarden von Parametern und komplexen Strukturen verborgen, was ihre innere Architektur und kognitiven Prozesse schwer verständlich macht. Wir schließen diese Lücke, indem wir Ansätze zur Erforschung emergenter Kognition in der Biologie übernehmen und ein netzwerkbasiertes Framework entwickeln, das kognitive Fähigkeiten, LLM-Architekturen und Datensätze verknüpft und damit einen Paradigmenwechsel in der Analyse von Foundation-Modellen einleitet. Die Fähigkeitsverteilung in den Modulgemeinschaften zeigt, dass LLMs zwar nicht strikt der fokussierten Spezialisierung entsprechen, die in bestimmten biologischen Systemen beobachtet wird, sie jedoch einzigartige Gemeinschaften von Modulen aufweisen, deren emergente Fähigkeitsmuster teilweise die verteilte, aber dennoch vernetzte kognitive Organisation widerspiegeln, wie sie in Vogel- und Kleinsäugergehirnen zu finden ist. Unsere numerischen Ergebnisse heben einen zentralen Unterschied zwischen biologischen Systemen und LLMs hervor, bei dem der Fähigkeitserwerb erheblich von dynamischen, regionsübergreifenden Interaktionen und neuronaler Plastizität profitiert. Durch die Integration von Prinzipien der Kognitionswissenschaft in das maschinelle Lernen bietet unser Framework neue Einblicke in die Interpretierbarkeit von LLMs und legt nahe, dass effektive Feinabstimmungsstrategien verteilte Lernprozesse nutzen sollten, anstatt auf starre modulare Eingriffe zu setzen.

Aug 26
Aug 27