HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

20 papers found

VIDEOP2R: Videoverstehen von Wahrnehmung bis zum Schlussfolgern
VIDEOP2R: Video Understanding from Perception to Reasoning

Nov 14

ByYifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan

108

Reinforcement Fine-Tuning (RFT), ein zweistufiges Framework bestehend aus Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) gezeigt. Die Übertragung von RFT auf große Videosprachmodelle (LVLMs) bleibt jedoch eine Herausforderung. Wir stellen VideoP2R vor, ein neuartiges prozessorientiertes Video-RFT-Framework, das das Videoverständnis verbessert, indem es Wahrnehmung und logisches Denken als distinkte Prozesse modelliert. In der SFT-Phase entwickeln wir eine dreistufige Pipeline zur Generierung von VideoP2R-CoT-162K, einem hochwertigen, prozessorientierten Chain-of-Thought (CoT)-Datensatz für Wahrnehmung und logisches Denken. In der RL-Phase führen wir einen neuartigen prozessorientierten Group Relative Policy Optimization (PA-GRPO)-Algorithmus ein, der separate Belohnungen für Wahrnehmung und logisches Denken bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R auf sechs von sieben Benchmarks für Videoverständnis und logisches Denken state-of-the-art (SotA) Leistung erzielt. Ablationsstudien bestätigen weiterhin die Wirksamkeit unserer prozessorientierten Modellierung und von PA-GRPO und zeigen, dass die Wahrnehmungsausgabe des Modells informationsausreichend für nachgelagertes logisches Denken ist.

Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-Sprachmodellen
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

Nov 11

ByTianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang

107

Die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs), insbesondere unter Parameterbeschränkungen, ist für reale Anwendungen entscheidend. Bisherige Arbeiten schlagen rekurrente Transformer vor, die eine feste Anzahl zusätzlicher Iterationen pro Token zuweisen, um die Generierungsqualität zu verbessern. Nach dem ersten, standardmäßigen Vorwärtsdurchlauf werden anstelle der Verbalisierung die Hidden States der letzten Schicht als Eingabe für zusätzliche Iterationen zurückgeführt, um die Token-Vorhersagen zu verfeinern. Dennoch identifizieren wir ein latentes "Overthinking"-Phänomen: Einfache Token-Vorhersagen, die bereits nach dem ersten Durchlauf korrekt sind, werden in zusätzlichen Iterationen manchmal zu Fehlern revidiert. Um dies zu adressieren, schlagen wir Think-at-Hard (TaH) vor, eine dynamische latente Denkmethode, die nur bei schwierigen Tokens tiefer iteriert. Sie verwendet einen leichten neuronalen Entscheider, um latente Iterationen nur bei Tokens auszulösen, die nach dem standardmäßigen Vorwärtsdurchlauf wahrscheinlich falsch sind. Während der latenten Iterationen verschieben Low-Rank Adaptation (LoRA)-Module das LLM-Ziel von der allgemeinen Next-Token-Prediction hin zur fokussierten Verfeinerung schwieriger Tokens. Wir führen weiterhin einen duo-causalen Attention-Mechanismus ein, der die Attention von der Token-Sequenzdimension auf eine zusätzliche Iterationstiefendimension erweitert. Dies ermöglicht Informationsfluss über Iterationen hinweg bei vollständiger Beibehaltung der sequentiellen Parallelität. Experimente zeigen, dass TaH die Reasoning-Leistung von LLMs über fünf anspruchsvolle Benchmarks hinweg steigert, während die gleiche Parameteranzahl beibehalten wird. Im Vergleich zu Baseline-Modellen, die alle Ausgabetokens zweimal iterieren, erzielt TaH Genauigkeitssteigerungen von 8,1–11,3 %, während 94 % der Tokens von der zweiten Iteration befreit werden. Gegenüber starken Qwen3-Modellen mit nur einer Iteration, die mit denselben Daten feinabgestimmt wurden, erzielt es ebenfalls Genauigkeitssteigerungen von 4,0–5,0 %. Wenn weniger als 3 % zusätzliche Parameter durch LoRA und den Iterationsentscheider zugelassen werden, erhöhen sich die Gewinne auf 8,5–12,6 % bzw. 5,3–5,4 %. Unser Code ist verfügbar unter https://github.com/thu-nics/TaH.

AraLingBench: Ein von Menschen annotierter Benchmark zur Bewertung der arabischen linguistischen Fähigkeiten großer Sprachmodelle
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Nov 18

ByMohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem

Wir präsentieren AraLingBench: einen vollständig von Menschen annotierten Benchmark zur Bewertung der arabischen linguistischen Kompetenz von großen Sprachmodellen (LLMs). Der Benchmark umfasst fünf Kernkategorien: Grammatik, Morphologie, Rechtschreibung, Leseverständnis und Syntax, anhand von 150 von Experten entworfenen Multiple-Choice-Fragen, die direkt das strukturelle Sprachverständnis bewerten. Die Auswertung von 35 arabischen und zweisprachigen LLMs zeigt, dass aktuelle Modelle eine starke oberflächliche Beherrschung aufweisen, jedoch mit tiefergehendem grammatikalischem und syntaktischem Verständnis kämpfen. AraLingBench verdeutlicht eine anhaltende Lücke zwischen hohen Punktzahlen in wissensbasierten Benchmarks und wahrer linguistischer Meisterschaft, indem er zeigt, dass viele Modelle durch Auswendiglernen oder Mustererkennung erfolgreich sind, anstatt durch authentisches Verständnis. Durch die Isolierung und Messung grundlegender linguistischer Fähigkeiten bietet AraLingBench ein diagnostisches Rahmenwerk für die Entwicklung arabischer LLMs. Der vollständige Evaluationscode ist öffentlich auf GitHub verfügbar.

Ein Stil entspricht einem Code: Entschlüsselung der Code-zu-Stil-Bildgenerierung mit diskretem Stilraum
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Nov 13

ByHuijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang

Innovative visuelle Stilisierung ist ein Grundpfeiler der künstlerischen Schöpfung, doch die Erzeugung neuartiger und konsistenter visueller Stile bleibt eine große Herausforderung. Bestehende generative Ansätze stützen sich typischerweise auf umfangreiche textuelle Eingabeaufforderungen, Referenzbilder oder parameter-effizientes Fine-Tuning, um stilbewusste Bildgenerierung zu steuern, haben jedoch oft mit Stilkonsistenz, begrenzter Kreativität und komplexen Stilrepräsentationen zu kämpfen. In diesem Beitrag bekräftigen wir, dass ein Stil einen numerischen Code wert ist, indem wir die neuartige Aufgabe der Code-zu-Stil-Bildgenerierung einführen, die Bilder mit neuartigen, konsistenten visuellen Stilen erzeugt, die ausschließlich auf einem numerischen Stilcode basieren. Bislang wurde dieses Feld hauptsächlich nur von der Industrie (z.B. Midjourney) erkundet, ohne open-source Forschung aus der akademischen Gemeinschaft. Um diese Lücke zu schließen, schlagen wir CoTyle vor, die erste open-source Methode für diese Aufgabe. Konkret trainieren wir zunächst ein diskretes Stilcodebuch aus einer Sammlung von Bildern, um Stil-Einbettungen zu extrahieren. Diese Einbettungen dienen als Bedingungen für ein Text-zu-Bild-Diffusionsmodell (T2I-DM), um stilisierte Bilder zu generieren. Anschließend trainieren wir einen autoregressiven Stilgenerator auf den diskreten Stileinbettungen, um deren Verteilung zu modellieren, was die Synthese neuartiger Stileinbettungen ermöglicht. Während der Inferenz wird ein numerischer Stilcode durch den Stilgenerator auf eine eindeutige Stileinbettung abgebildet, und diese Einbettung steuert das T2I-DM bei der Generierung von Bildern im entsprechenden Stil. Im Gegensatz zu bestehenden Methoden bietet unser Ansatz unübertroffene Einfachheit und Vielfalt und erschließt einen riesigen Raum reproduzierbarer Stile aus minimaler Eingabe. Umfangreiche Experimente bestätigen, dass CoTyle effektiv einen numerischen Code in einen Stilcontroller verwandelt und demonstrieren, dass ein Stil einen Code wert ist.

Große Sprachmodelle treffen auf extreme Multi-Label-Klassifikation: Skalierung und multimodale Frameworks
Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

Nov 17

ByDiego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel

Foundation Models haben die künstliche Intelligenz in zahlreichen Domänen revolutioniert, doch ihr transformatives Potenzial bleibt im Bereich der Extreme Multi-label Classification (XMC) weitgehend ungenutzt. Bei XMC werden Anfragen mit relevanten Labels aus extrem großen Labelräumen verknüpft, wobei eine Balance zwischen Effizienz und Performance entscheidend ist. Daher modellieren viele aktuelle Ansätze XMC effizient als Maximum Inner Product Search zwischen Embeddings, die mit kleinen, encoder-basierten Transformer-Architekturen gelernt wurden. In diesem Beitrag behandeln wir zwei wichtige Aspekte von XMC: wie größere decoder-basierte Modelle effektiv genutzt werden können und wie visuelle Informationen bei gleichzeitiger Wahrung der Recheneffizienz erschlossen werden können. Wir zeigen, dass beide separat eine kritische Rolle in XMC spielen und kombiniert werden können, um die Leistung zu steigern. Wir demonstrieren, dass ein Decoder im Milliarden-Parameter-Bereich signifikante Verbesserungen erbringen kann, während der Rechenaufwand überschaubar bleibt. Darüber hinaus integriert unser Vision-enhanced eXtreme Multi-label Learning Framework (ViXML) Foundation Vision Models effizient durch das Pooling eines einzigen Embeddings pro Bild. Dies begrenzt den Rechenaufwand, eröffnet aber multimodale Fähigkeiten. Bemerkenswerterweise übertrifft ViXML mit kleinen Encodern in den meisten Fällen textbasierte Decoder, was zeigt, dass ein Bild Milliarden von Parametern wert ist. Abschließend präsentieren wir eine Erweiterung bestehender textbasierter Datensätze zur Nutzung visueller Metadaten und stellen diese für zukünftige Benchmarks zur Verfügung. Umfassende Experimente mit vier öffentlichen textbasierten Datensätzen und ihren entsprechenden bilderweiterten Versionen validieren die Wirksamkeit unserer Vorschläge, wobei auf dem größten Datensatz eine Steigerung von bis zu +8,21 % in P@1 gegenüber dem vorherigen State-of-the-Art erzielt wird. Der Code von ViXML ist unter https://github.com/DiegoOrtego/vixml verfügbar.

Können Weltsimulatoren schlussfolgern? Gen-ViRe: Ein generativer Benchmark für visuelles Reasoning
Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Nov 17

ByXinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang

Während Chain-of-Thought (CoT) Prompting anspruchsvolles symbolisches Schließen in LLMs ermöglicht, bleibt es auf diskreten Text beschränkt und kann die kontinuierlichen, physikalisch gesteuerten Dynamiken der realen Welt nicht simulieren. Kürzlich aufgetauchte Videogenerationsmodelle haben sich als potenzielle Weltsimulatoren durch Chain-of-Frames (CoF) Reasoning erwiesen – dabei materialisiert sich der Gedanke als bildweise visuelle Sequenz, wobei jedes Einzelbild einen physikalisch fundierten Denkschritt repräsentiert. Trotz beeindruckender Demonstrationen besteht eine Herausforderung fort: Bestehende Benchmarks, die sich auf Wiedergabetreue oder Übereinstimmung konzentrieren, bewerten das CoF-Reasoning nicht und können somit keine Kernfähigkeiten im mehrstufigen Planen, algorithmischen Logikverständnis oder in der Extrapolation abstrakter Muster messen. Diese Bewertungslücke verhindert ein systematisches Verständnis der Modellfähigkeiten und eine prinzipiengeleitete Verbesserung. Wir stellen Gen-ViRe (Generative Visual Reasoning Benchmark) vor, ein Rahmenwerk, das in der Kognitionswissenschaft und realen KI-Anwendungen verankert ist und CoF-Reasoning in sechs kognitive Dimensionen – von der Wahrnehmungslogik bis zur abstrakten Planung – und 24 Teilaufgaben zerlegt. Durch Multi-Source-Datenkuratierung, minimale Prompting-Protokolle und eine hybride, VLM-unterstützte Evaluation mit detaillierten Kriterien liefert Gen-ViRe die erste quantitative Bewertung von Videomodellen als Reasoning-Systeme. Unsere Experimente mit State-of-the-Art-Systemen zeigen erhebliche Diskrepanzen zwischen beeindruckender visueller Qualität und der tatsächlichen Reasoning-Tiefe auf und etablieren so Baselines und Diagnosewerkzeuge, um die Entwicklung echter Weltsimulatoren voranzutreiben.

REVISOR: Über die textuelle Reflexion hinaus – hin zu multimodaler introspektiver Argumentation im Verständnis langer Videos
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Nov 17

ByJiaze Li, Hao Yin, Wenhui Tan, Jingyang Chen, Boshen Xu, Yuxun Qu, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Jian Luan

Selbstreflexionsmechanismen, die auf rein textbasierten Überdenkprozessen beruhen, schneiden bei den meisten multimodalen Aufgaben gut ab. Bei direkter Anwendung auf Szenarien zum Verständnis langformatiger Videos zeigen sie jedoch deutliche Grenzen. Die grundlegenden Gründe hierfür liegen in zwei Punkten: (1) Das Verständnis langformatiger Videos beinhaltet eine reichere und dynamischere visuelle Eingabe, was bedeutet, dass ein Überdenken nur der Textinformationen unzureichend ist und einen weiteren Überdenkprozess erfordert, der speziell auf visuelle Informationen abzielt; (2) Rein textbasierte Reflexionsmechanismen verfügen über keine Fähigkeiten zur cross-modalen Interaktion, was sie daran hindert, visuelle Informationen während der Reflexion vollständig zu integrieren. Angeregt durch diese Erkenntnisse schlagen wir REVISOR (REflective VIsual Segment Oriented Reasoning) vor, einen neuartigen Rahmenwerk für werkzeuggestützte multimodale Reflexion. REVISOR ermöglicht es MLLMs, introspective Reflexionsprozesse kollaborativ über textuelle und visuelle Modalitäten hinweg zu konstruieren und verbessert so erheblich ihre Schlussfolgerungsfähigkeit für das Verständnis langformatiger Videos. Um sicherzustellen, dass REVISOR während des bestärkenden Lernens lernt, genau die für die Frage hochrelevanten Videosegmente zu überprüfen, haben wir den Dual Attribution Decoupled Reward (DADR)-Mechanismus entwickelt. Dieser Mechanismus, integriert in die GRPO-Trainingsstrategie, erzwingt eine kausale Ausrichtung zwischen der Schlussfolgerung des Modells und den ausgewählten Videobeweisen. Bemerkenswerterweise verbessert das REVISOR-Rahmenwerk die Fähigkeit von MLLMs zum Verständnis langformatiger Videos erheblich, ohne dass eine zusätzliche überwachte Feinabstimmung oder externe Modelle erforderlich sind, und erzielt beeindruckende Ergebnisse auf vier Benchmark-Tests, darunter VideoMME, LongVideoBench, MLVU und LVBench.

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Nov 18

ByHuiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng

Die Bewertung der Robustheit großer visuell-sprachlicher Modelle (LVLMs) ist entscheidend für ihre kontinuierliche Entwicklung und den verantwortungsvollen Einsatz in realen Anwendungen. Bisherige Robustheits-Benchmarks konzentrieren sich jedoch typischerweise auf Halluzinationen oder irreführende textuelle Eingaben und übersehen weitgehend die ebenso wichtige Herausforderung, die irreführende visuelle Eingaben für die Bewertung des visuellen Verständnisses darstellen. Um diese bedeutende Lücke zu schließen, stellen wir MVI-Bench vor, den ersten umfassenden Benchmark, der speziell zur Evaluierung entwickelt wurde, wie irreführende visuelle Eingaben die Robustheit von LVLMs untergraben. Basierend auf grundlegenden visuellen Primitive konzentriert sich das Design von MVI-Bench auf drei hierarchische Ebenen irreführender visueller Eingaben: Visuelles Konzept, Visuelles Attribut und Visuelle Beziehung. Anhand dieser Taxonomie haben wir sechs repräsentative Kategorien kuratiert und 1.248 fachkundig annotierte VQA-Instanzen zusammengestellt. Um eine granulare Robustheitsbewertung zu ermöglichen, führen wir zudem MVI-Sensitivity ein, eine neuartige Metrik, die die Robustheit von LVLMs auf feiner Ebene charakterisiert. Empirische Ergebnisse über 18 state-of-the-art LVLMs hinweg decken ausgeprägte Anfälligkeiten gegenüber irreführenden visuellen Eingaben auf, und unsere tiefgehenden Analysen auf MVI-Bench liefern umsetzbare Erkenntnisse, die die Entwicklung zuverlässigerer und robusterer LVLMs leiten können. Der Benchmark und der Codebase sind unter https://github.com/chenyil6/MVI-Bench zugänglich.

Agent READMEs: Eine empirische Untersuchung von Kontextdateien für agentenbasiertes Programmieren
Agent READMEs: An Empirical Study of Context Files for Agentic Coding

Nov 17

ByWorawalan Chatlatanagulchai, Hao Li, Yutaro Kashiwa, Brittany Reid, Kundjanasith Thonglek, Pattara Leelaprute, Arnon Rungsawang, Bundit Manaskasemsak, Bram Adams, Ahmed E. Hassan, Hajimu Iida

Agentische Code-Tools erhalten Ziele in natürlicher Sprache als Eingabe, zerlegen sie in konkrete Aufgaben und schreiben oder führen den eigentlichen Code mit minimalem menschlichem Eingriff aus. Zentrale Bedeutung haben dabei Agenten-Kontextdateien ("READMEs für Agenten"), die persistente, projektbezogene Anweisungen bereitstellen. In diesem Artikel führen wir die erste großangelegte empirische Studie von 2.303 Agenten-Kontextdateien aus 1.925 Repositories durch, um deren Struktur, Wartung und Inhalte zu charakterisieren. Wir zeigen, dass diese Dateien keine statische Dokumentation sind, sondern komplexe, schwer lesbare Artefakte, die sich wie Konfigurationscode entwickeln und durch häufige, kleine Ergänzungen gepflegt werden. Unsere Inhaltsanalyse von 16 Anweisungstypen zeigt, dass Entwickler funktionalen Kontext priorisieren, wie Build- und Run-Befehle (62,3%), Implementierungsdetails (69,9%) und Architektur (67,7%). Wir identifizieren auch eine signifikante Lücke: Nicht-funktionale Anforderungen wie Sicherheit (14,5%) und Performance (14,5%) werden selten spezifiziert. Diese Ergebnisse deuten darauf hin, dass Entwickler Kontextdateien zwar nutzen, um Agenten funktionsfähig zu machen, aber kaum Vorkehrungen treffen, um sicherzustellen, dass agentengeschriebener Code sicher oder performant ist. Dies unterstreicht den Bedarf an verbesserten Werkzeugen und Praktiken.

Agent-R1: Training leistungsstarker LLM-Agenten mit End-to-End-Verstärkungslernen
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Nov 18

ByMingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen

Große Sprachmodelle (LLMs) werden zunehmend für die Entwicklung von Agenten erforscht, die in der Lage sind, aktiv mit ihrer Umgebung zu interagieren (z. B. durch Werkzeugnutzung), um komplexe Probleme zu lösen. Reinforcement Learning (RL) wird als Schlüsseltechnologie mit großem Potenzial für das Training solcher Agenten angesehen; die effektive Anwendung von RL auf LLM-Agenten befindet sich jedoch noch in den Anfangsstadien und steht vor erheblichen Herausforderungen. Derzeit fehlt es in diesem aufstrebenden Forschungsgebiet an einer vertieften Erforschung von RL-Ansätzen, die speziell auf den Kontext von LLM-Agenten zugeschnitten sind, sowie an flexiblen und leicht erweiterbaren Trainingsframeworks für diesen Zweck. Um dieses Gebiet voranzubringen, geht dieses Papier zunächst auf Reinforcement-Learning-Methoden für LLM-Agenten ein, indem es den Markov-Entscheidungsprozess (MDP) systematisch erweitert, um die Schlüsselkomponenten eines LLM-Agenten umfassend zu definieren. Zweitens stellen wir Agent-R1 vor, ein modulares, flexibles und benutzerfreundliches Trainingsframework für RL-basierte LLM-Agenten, das für eine einfache Anpassung an verschiedene Aufgabenszenarien und interaktive Umgebungen konzipiert ist. Wir führten Experimente zu Benchmark-Aufgaben für Multihop-Fragebeantwortung (QA) durch, die eine erste Validierung der Wirksamkeit unserer vorgeschlagenen Methoden und unseres Frameworks liefern.

OmniZip: Audio-geführte dynamische Token-Kompression für schnelle omnimodale Large Language Models
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

Nov 18

ByKeda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang

Omnimonale Large Language Models (OmniLLMs) haben in letzter Zeit zunehmend Forschungsinteresse für ein vereinheitlichtes Audio-Video-Verständnis geweckt, wobei die Verarbeitung von Audio-Video-Token-Sequenzen jedoch einen erheblichen rechnerischen Engpass darstellt. Bisherige Token-Kompressionsverfahren sind den neu entstehenden Bedarf einer gemeinsamen Komprimierung multimodaler Token noch nicht gerecht geworden. Um diese Lücke zu schließen, stellen wir OmniZip vor, ein trainingsfreies, audiogeführtes audiovisuelles Token-Kompressionsframework, das die multimodale Token-Repräsentation optimiert und die Inferenz beschleunigt. Konkret identifiziert OmniZip zunächst saliente Audio-Token, berechnet dann für jede Zeitsgruppe einen Audio-Beibehaltungswert, um die Informationsdichte zu erfassen, und leitet dadurch dynamisch das Ausdünnen von Video-Token an, wobei Hinweise von durch cross-modale Ähnlichkeit verstärkten Audio-Ankern bewahrt werden. Für jedes Zeitfenster komprimiert OmniZip die Video-Token mittels eines verschachtelten raum-zeitlichen Schemas. Umfangreiche empirische Ergebnisse belegen die Vorteile von OmniZip – es erreicht im Vergleich zu anderen hochperformanten Ansätzen eine 3,42-fache Beschleunigung der Inferenz und eine 1,4-fache Reduzierung des Speicherbedarfs, bei gleichbleibender Leistung ohne Training.

Orion: Ein einheitlicher visueller Agent für multimodale Wahrnehmung, erweitertes visuelles Schließen und Ausführung
Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

Nov 18

ByN Dinesh Reddy, Sudeep Pillai

Wir stellen Orion vor, einen visuellen Agenten-Rahmen, der beliebige Modalitäten aufnehmen und generieren kann. Durch einen agentenbasierten Rahmen mit mehreren Tool-Calling-Fähigkeiten ist Orion für visuelle KI-Aufgaben konzipiert und erzielt state-of-the-art Ergebnisse. Im Gegensatz zu traditionellen Vision-Language-Modellen, die deskriptive Ausgaben erzeugen, orchestriert Orion eine Reihe spezialisierter Computer-Vision-Tools – einschließlich Objekterkennung, Keypoint-Lokalisierung, panoptischer Segmentierung, optischer Zeichenerkennung und geometrischer Analyse – um komplexe, mehrstufige visuelle Workflows auszuführen. Das System erzielt wettbewerbsfähige Leistungen auf MMMU, MMBench, DocVQA und MMLongBench und erweitert dabei monolithische Vision-Language-Modelle zu produktionsreifer visueller Intelligenz. Durch die Kombination von neuronaler Wahrnehmung mit symbolischer Ausführung ermöglicht Orion autonomes visuelles Reasoning und markiert damit den Übergang von passivem visuellem Verständnis zu aktiver, tool-gesteuerter visueller Intelligenz.

ATLAS: Ein anspruchsvoller, multidisziplinärer Benchmark für wissenschaftliches Spitzenreasoning
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

Nov 18

ByHongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen

Die rasante Entwicklung großer Sprachmodelle (LLM) hat zu einer Leistungssättigung auf vielen etablierten Benchmarks geführt, was deren Fähigkeit infrage stellt, fortgeschrittene Modelle zu unterscheiden. Gleichzeitig leiden bestehende Benchmarks mit hohem Schwierigkeitsgrad oft unter einem engen disziplinären Fokus, übervereinfachten Antwortformaten und einer Anfälligkeit für Datenkontamination, was eine Treuekluft zur realen wissenschaftlichen Forschung erzeugt. Um diese Herausforderungen zu bewältigen, stellen wir ATLAS (AGI-Oriented Testbed for Logical Application in Science) vor, eine groß angelegte, hochschwierige und disziplinübergreifende Evaluierungssuite, die aus etwa 800 originären Problemen besteht. Entwickelt von Fachexperten (Promotionsniveau und höher), erstreckt sich ATLAS über sieben zentrale wissenschaftliche Felder: Mathematik, Physik, Chemie, Biologie, Informatik, Geowissenschaften und Materialwissenschaften. Seine Hauptmerkmale umfassen: (1) Hohe Originalität und Widerstandsfähigkeit gegen Kontamination, da alle Fragen neu erstellt oder substanziell angepasst wurden, um Testdatenlecks zu verhindern; (2) Disziplinübergreifender Fokus, konzipiert um die Fähigkeit der Modelle zu bewerten, Wissen zu integrieren und disziplinübergreifend zu schlussfolgern; (3) Hochwertige Antworten, die komplexe, offene Antworten mit mehrstufiger Argumentation und LaTeX-formatierten Ausdrücken priorisieren anstatt einfacher Multiple-Choice-Fragen; und (4) Strenge Qualitätskontrolle, die einen mehrstufigen Prozess mit Experten-Begutachtung und adversarieller Testung einsetzt, um Schwierigkeitsgrad, wissenschaftlichen Wert und Korrektheit der Fragen zu gewährleisten. Wir schlagen zudem ein robustes Evaluierungsparadigma vor, das ein Gremium von LLM-Beurteilern zur automatisierten, nuancierten Bewertung komplexer Antworten nutzt. Erste Ergebnisse mit führenden Modellen demonstrieren die Wirksamkeit von ATLAS, deren fortgeschrittene wissenschaftliche Denkfähigkeiten zu differenzieren. Wir planen, ATLAS zu einer langfristigen, offenen, gemeinschaftsgesteuerten Plattform zu entwickeln, um einen verlässlichen "Maßstab" für den Fortschritt hin zu einer Künstlichen Allgemeinen Intelligenz zu bieten.

Φeat: Physikalisch fundierte Merkmalsrepräsentation
Φeat: Physically-Grounded Feature Representation

Nov 14

ByGiuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur

Foundation Models haben sich als effektive Grundarchitekturen für viele Vision-Aufgaben erwiesen. Allerdings vermischen aktuelle selbstüberwachte Merkmale hochlevelige Semantik mit low-level physikalischen Faktoren wie Geometrie und Beleuchtung, was ihre Verwendung in Aufgaben erschwert, die explizite physikalische Schlussfolgerungen erfordern. In diesem Artikel stellen wir Φeat vor, eine neuartige physikalisch fundierte visuelle Basisarchitektur, die eine Repräsentation fördert, die empfindlich auf Materialidentität reagiert, einschließlich Reflexionshinweisen und geometrischer Mesostruktur. Unser zentraler Ansatz ist eine Pre-training-Strategie, die räumliche Ausschnitte und physikalische Augmentierungen desselben Materials unter variierenden Formen und Beleuchtungsbedingungen kontrastiert. Während ähnliche Daten bereits für hochwertige überwachte Aufgaben wie intrinsische Dekomposition oder Materialschätzung verwendet wurden, zeigen wir, dass eine rein selbstüberwachte Trainingsstrategie ohne explizite Labels bereits eine starke Priorität für Aufgaben liefert, die robuste Merkmale erfordern, die invariant gegenüber externen physikalischen Faktoren sind. Wir evaluieren die gelernten Repräsentationen durch Ähnlichkeitsanalysen von Merkmalen und Materialauswahl und zeigen, dass Φeat physikalisch fundierte Strukturen erfasst, die über semantische Gruppierungen hinausgehen. Diese Ergebnisse unterstreichen das Potenzial von unüberwachtem physikalischem Merkmalslernen als Grundlage für physikbewusste Wahrnehmung in Vision und Grafik.

Proaktive Hörassistenten zur Isolierung egozentrischer Gespräche
Proactive Hearing Assistants that Isolate Egocentric Conversations

Nov 14

ByGuilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota

Wir stellen proaktive Hörassistenten vor, die die Gesprächspartner des Nutzers automatisch identifizieren und separieren, ohne explizite Aufforderungen zu benötigen. Unser System verarbeitet egozentrische binaurale Audiodaten und nutzt die Eigenstimme des Nutzers als Ankerpunkt, indem es Sprecherwechsel und Dialogdynamik ausnutzt, um Gesprächspartner zu inferieren und andere Stimmen zu unterdrücken. Um Echtzeitverarbeitung direkt auf dem Endgerät zu ermöglichen, schlagen wir eine Dual-Model-Architektur vor: Ein leichtes Streaming-Modell läuft alle 12,5 ms für eine latenzarme Extraktion der Gesprächspartner, während ein langsameres Modell seltener läuft, um längerfristige Konversationsdynamiken zu erfassen. Ergebnisse auf realen Testdatensätzen mit 2 und 3 Sprechern – erhoben mit binauraler Egozentrik-Hardware von 11 Teilnehmern mit insgesamt 6,8 Stunden Daten – zeigen eine Generalisierungsfähigkeit bei der Identifikation und Isolierung von Gesprächspartnern in Multi-Konversations-Szenarien. Unsere Arbeit markiert einen Schritt hin zu Hörassistenten, die sich proaktiv an Konversationsdynamik und Gesprächsbeteiligung anpassen. Weitere Informationen finden Sie auf unserer Website: https://proactivehearing.cs.washington.edu/

Fehlergesteuerte Szenenbearbeitung für 3D-Verankerung in großen Sprachmodellen
Error-Driven Scene Editing for 3D Grounding in Large Language Models

Nov 18

ByYue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal

Trotz jüngster Fortschritte bei 3D-LLMs bleiben diese in ihrer Fähigkeit eingeschränkt, Sprache präzise mit visuellen und räumlichen Elementen in 3D-Umgebungen zu verankern. Diese Einschränkung resultiert teilweise aus Trainingsdaten, die aufgrund knapper 3D-Ressourcen eher auf Sprachverständnis als auf räumliches Verständnis abzielen, wodurch inhärente Verankerungsverzerrungen ungelöst bleiben. Um dies zu adressieren, schlagen wir 3D-Szenenbearbeitung als einen Schlüsselmechanismus vor, um präzise visuelle Gegenfakten zu erzeugen, die diese Verzerrungen durch feingranulare räumliche Manipulation mildern, ohne kostspielige Szenenrekonstruktion oder großangelegte 3D-Datenerfassung zu erfordern. Des Weiteren führen wir DEER-3D ein, einen fehlergetriebenen Rahmen, der einem strukturierten "Zerlegen, Diagnostische Bewertung, Bearbeiten und Neu-Trainieren"-Workflow folgt, um diese Bearbeitungen zielgerichtet zu gestalten und spezifische Schwächen des Modells direkt anzugehen, anstatt Daten breit oder zufällig zu erweitern wie bei konventionellen Ansätzen. Konkret diagnostiziert unser Framework bei Erkennung eines Verankerungsfehlers des 3D-LLMs zunächst den exakten Prädikats-fehler (z.B. Attribut oder räumliche Relation). Anschließend führt es minimale, prädikat-spezifische 3D-Szenenänderungen wie Neufärbung oder Umpositionierung durch, um gezielte gegenfaktuelle Supervision für iteratives Modell-Feintuning zu erzeugen, was die Verankerungsgenauigkeit erheblich steigert. Wir evaluieren unsere Bearbeitungspipeline anhand mehrerer Benchmarks für 3D-Verankerung und Szenenverständnisaufgaben und zeigen durch iterative Verfeinerung konsistente Verbesserungen über alle evaluierten Datensätze hinweg. DEER-3D unterstreicht die Wirksamkeit zielgerichteter, fehlergetriebener Szenenbearbeitung zur Überbrückung von linguistischen Reasoning-Fähigkeiten und räumlicher Verankerung in 3D-LLMs.

Minderung der Label-Längenverzerrung in großen Sprachmodellen
Mitigating Label Length Bias in Large Language Models

Nov 18

ByMario Sanz-Guerrero, Katharina von der Wense

Große Sprachmodelle (LLMs) sind leistungsstarke Zero- und Few-Shot-Lerner. Bei der Vorhersage über eine Menge von Kandidatenoptionen leiden LLMs jedoch unter Label-Bias, und bestehende Kalibrierungsmethoden übersehen Verzerrungen, die aus Multi-Token-Klassenlabels resultieren. Wir behandeln ein Problem, das wir als Label-Längen-Bias bezeichnen, bei dem Labels unterschiedlicher Länge inkonsistent behandelt werden, selbst nach standardmäßiger Längennormierung. Um dies zu mildern, schlagen wir die normalisierte kontextuelle Kalibrierung (NCC) vor, eine effektive Methode, die Vorhersagen auf der Ebene des vollständigen Labels normalisiert und kalibriert. NCC erzielt statistisch signifikante Verbesserungen gegenüber früheren Ansätzen über mehrere Datensätze und Modelle hinweg, mit Steigerungen von bis zu 10 % F1. Darüber hinaus erweitert NCC die Bias-Minderung auf breitere Aufgaben wie das Beantworten von Multiple-Choice-Fragen. Unsere Analyse zeigt, dass NCC in Kombination mit In-Context-Learning weniger empfindlich auf die Auswahl von Few-Shot-Beispielen reagiert, weniger Beispiele für wettbewerbsfähige Leistung benötigt und zuverlässigere Konfidenzschätzungen liefert. Diese Ergebnisse unterstreichen die Bedeutung der Minderung von Voll-Label-Bias, um die Leistung und Robustheit LLM-basierter Methoden zu verbessern, insbesondere in realen Anwendungen, bei denen Klassenlabels natürlicherweise aus mehreren Tokens bestehen.

Ein Hirnwellenmuster kodiert tausend Signale: Modellierung interkortikaler neuronaler Wechselwirkungen für eine effektive EEG-basierte Emotionserkennung
A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition

Nov 17

ByNilay Kumar, Priyansh Bhandari, G. Maragatham

Menschliche Emotionen sind schwer in Worte zu fassen und werden im Prozess der Verbalisierung oft abstrahiert; Elektroenzephalogramm (EEG)-Signale können hingegen einen direkteren Einblick in die emotionale Gehirnaktivität bieten. Jüngste Studien zeigen, dass Deep-Learning-Modelle diese Signale verarbeiten können, um eine Emotionserkennung mit hoher Genauigkeit durchzuführen. Viele bestehende Ansätze übersehen jedoch die dynamische Wechselwirkung zwischen verschiedenen Gehirnregionen, die entscheidend zum Verständnis beitragen kann, wie Emotionen entstehen und sich über die Zeit entwickeln, was potenziell eine genauere Emotionserkennung ermöglicht. Um dies zu adressieren, schlagen wir RBTransformer vor, eine Transformer-basierte neuronale Netzwerkarchitektur, die die neuralen Dynamiken zwischen kortikalen Regionen des Gehirns im latenten Raum modelliert, um strukturierte neuronale Interaktionen für eine effektive EEG-basierte Emotionserkennung besser zu erfassen. Zunächst werden die EEG-Signale in Band-Differential-Entropie (BDE)-Tokens umgewandelt, die dann durch Electrode-Identity-Embeddings geleitet werden, um die räumliche Herkunft beizubehalten. Diese Tokens werden durch aufeinanderfolgende interkortikale Multi-Head-Attention-Blöcke verarbeitet, die eine Elektrode-x-Elektrode-Attentionsmatrix konstruieren und es dem Modell ermöglichen, die neuralen Abhängigkeiten zwischen den kortikalen Regionen zu erlernen. Die resultierenden Merkmale werden anschließend durch einen Klassifikationskopf geleitet, um die endgültige Vorhersage zu erhalten. Wir führten umfangreiche Experimente unter subjektabhängigen Bedingungen an den SEED-, DEAP- und DREAMER-Datensätzen durch, über alle drei Dimensionen – Valenz, Erregung und Dominanz (für DEAP und DREAMER) – sowohl unter binären als auch unter Multi-Class-Klassifikationsbedingungen. Die Ergebnisse zeigen, dass der vorgeschlagene RBTransformer alle bisherigen State-of-the-Art-Methoden über alle drei Datensätze, alle drei Dimensionen und beide Klassifikationssettings hinweg übertrifft. Der Quellcode ist verfügbar unter: https://github.com/nnilayy/RBTransformer.

Vollständig automatisierte Chaos-Engineering mit LLM-Unterstützung: Auf dem Weg zu kostengünstigen resilienten Softwaresystemen für alle
LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

Nov 11

ByDaisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri

Chaos Engineering (CE) ist eine Ingenieurtechnik zur Verbesserung der Resilienz verteilter Systeme. Dabei werden gezielt Fehler in ein System injiziert, um seine Widerstandsfähigkeit zu testen, Schwachstellen aufzudecken und diese zu beheben, bevor sie zu Ausfällen in der Produktion führen. Moderne CE-Tools automatisieren die Ausführung vordefinierter CE-Experimente. Die Planung solcher Experimente und die Verbesserung des Systems auf Basis der Ergebnisse bleiben jedoch nach wie vor manuelle Prozesse. Diese Prozesse sind arbeitsintensiv und erfordern Expertise in mehreren Domänen. Um diese Herausforderungen zu bewältigen und es jedem zu ermöglichen, kostengünstig resiliente Systeme zu bauen, schlägt dieser Beitrag ChaosEater vor – ein System, das den gesamten CE-Zyklus mit Large Language Models (LLMs) automatisiert. Es definiert einen agentenbasierten Workflow gemäß einem systematischen CE-Zyklus vor und weist die unterteilten Prozesse innerhalb des Workflows LLMs zu. ChaosEater zielt auf CE für Softwaresysteme ab, die auf Kubernetes aufbauen. Daher erledigen die LLMs in ChaosEater CE-Zyklen durch Software-Engineering-Aufgaben, einschließlich Anforderungsdefinition, Code-Generierung, Testing und Debugging. Wir evaluieren ChaosEater durch Fallstudien an kleinen und großen Kubernetes-Systemen. Die Ergebnisse zeigen, dass es konsistent sinnvolle CE-Zyklen mit deutlich geringeren Zeit- und Geldkosten abschließt. Seine Zyklen werden zudem qualitativ von menschlichen Ingenieuren und LLMs validiert.

TopoPerception: Eine pfadfreie Bewertung der globalen visuellen Wahrnehmung in großen Vision-Sprach-Modellen
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

Nov 14

ByWenhao Zhou, Hao Zheng, Rong Zhao

Große Vision-Sprach-Modelle (LVLMs) richten typischerweise visuelle Merkmale aus einem Encoder an einem vortrainierten Großsprachmodell (LLM) aus. Dadurch wird jedoch das visuelle Wahrnehmungsmodul zu einem Engpass, der die Gesamtfähigkeiten von LVLMs einschränkt. Konventionelle Evaluierungs-Benchmarks, obwohl reich an visueller Semantik, enthalten oft unvermeidbare lokale Abkürzungen, die zu einer Überschätzung der Wahrnehmungsfähigkeiten von Modellen führen können. Hier stellen wir TopoPerception vor, einen Benchmark, der topologische Eigenschaften nutzt, um die globalen visuellen Wahrnehmungsfähigkeiten von LVLMs über verschiedene Granularitäten hinweg rigoros zu bewerten. Da Topologie von der globalen Struktur eines Bildes abhängt und invariant gegenüber lokalen Merkmalen ist, ermöglicht TopoPerception eine abkürzungsfreie Bewertung der globalen Wahrnehmung, was ihn grundlegend von semantisch reichen Aufgaben unterscheidet. Wir evaluieren state-of-the-art Modelle mit TopoPerception und stellen fest, dass selbst bei der gröbsten Wahrnehmungsgranularität alle Modelle nicht besser als zufälliges Raten abschneiden, was auf ein tiefgreifendes Unvermögen hinweist, globale visuelle Merkmale zu erfassen. Bemerkenswerterweise zeigt sich ein konsistenter Trend innerhalb von Modellfamilien: leistungsstärkere Modelle mit besseren Reasoning-Fähigkeiten weisen eine geringere Genauigkeit auf. Dies deutet darauf hin, dass reine Skalierung von Modellen unzureichend ist, um dieses Defizit zu beheben, und es sogar verschärfen könnte. Fortschritt könnte neue Trainingsparadigmen oder Architekturen erfordern. TopoPerception legt nicht nur einen kritischen Engpass aktueller LVLMs offen, sondern bietet auch eine Perspektive und Richtung zur Verbesserung ihrer globalen visuellen Wahrnehmung. Die Daten und der Code sind öffentlich verfügbar unter: https://github.com/Wenhao-Zhou/TopoPerception.

ATLAS: Ein anspruchsvoller, multidisziplinärer Benchmark für wissenschaftliches Spitzenreasoning
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

Nov 18