papers.description
Reinforcement Fine-Tuning (RFT), ein zweistufiges Framework bestehend aus Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) gezeigt. Die Übertragung von RFT auf große Videosprachmodelle (LVLMs) bleibt jedoch eine Herausforderung. Wir stellen VideoP2R vor, ein neuartiges prozessorientiertes Video-RFT-Framework, das das Videoverständnis verbessert, indem es Wahrnehmung und logisches Denken als distinkte Prozesse modelliert. In der SFT-Phase entwickeln wir eine dreistufige Pipeline zur Generierung von VideoP2R-CoT-162K, einem hochwertigen, prozessorientierten Chain-of-Thought (CoT)-Datensatz für Wahrnehmung und logisches Denken. In der RL-Phase führen wir einen neuartigen prozessorientierten Group Relative Policy Optimization (PA-GRPO)-Algorithmus ein, der separate Belohnungen für Wahrnehmung und logisches Denken bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R auf sechs von sieben Benchmarks für Videoverständnis und logisches Denken state-of-the-art (SotA) Leistung erzielt. Ablationsstudien bestätigen weiterhin die Wirksamkeit unserer prozessorientierten Modellierung und von PA-GRPO und zeigen, dass die Wahrnehmungsausgabe des Modells informationsausreichend für nachgelagertes logisches Denken ist.
Die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs), insbesondere unter Parameterbeschränkungen, ist für reale Anwendungen entscheidend. Bisherige Arbeiten schlagen rekurrente Transformer vor, die eine feste Anzahl zusätzlicher Iterationen pro Token zuweisen, um die Generierungsqualität zu verbessern. Nach dem ersten, standardmäßigen Vorwärtsdurchlauf werden anstelle der Verbalisierung die Hidden States der letzten Schicht als Eingabe für zusätzliche Iterationen zurückgeführt, um die Token-Vorhersagen zu verfeinern. Dennoch identifizieren wir ein latentes "Overthinking"-Phänomen: Einfache Token-Vorhersagen, die bereits nach dem ersten Durchlauf korrekt sind, werden in zusätzlichen Iterationen manchmal zu Fehlern revidiert. Um dies zu adressieren, schlagen wir Think-at-Hard (TaH) vor, eine dynamische latente Denkmethode, die nur bei schwierigen Tokens tiefer iteriert. Sie verwendet einen leichten neuronalen Entscheider, um latente Iterationen nur bei Tokens auszulösen, die nach dem standardmäßigen Vorwärtsdurchlauf wahrscheinlich falsch sind. Während der latenten Iterationen verschieben Low-Rank Adaptation (LoRA)-Module das LLM-Ziel von der allgemeinen Next-Token-Prediction hin zur fokussierten Verfeinerung schwieriger Tokens. Wir führen weiterhin einen duo-causalen Attention-Mechanismus ein, der die Attention von der Token-Sequenzdimension auf eine zusätzliche Iterationstiefendimension erweitert. Dies ermöglicht Informationsfluss über Iterationen hinweg bei vollständiger Beibehaltung der sequentiellen Parallelität. Experimente zeigen, dass TaH die Reasoning-Leistung von LLMs über fünf anspruchsvolle Benchmarks hinweg steigert, während die gleiche Parameteranzahl beibehalten wird. Im Vergleich zu Baseline-Modellen, die alle Ausgabetokens zweimal iterieren, erzielt TaH Genauigkeitssteigerungen von 8,1–11,3 %, während 94 % der Tokens von der zweiten Iteration befreit werden. Gegenüber starken Qwen3-Modellen mit nur einer Iteration, die mit denselben Daten feinabgestimmt wurden, erzielt es ebenfalls Genauigkeitssteigerungen von 4,0–5,0 %. Wenn weniger als 3 % zusätzliche Parameter durch LoRA und den Iterationsentscheider zugelassen werden, erhöhen sich die Gewinne auf 8,5–12,6 % bzw. 5,3–5,4 %. Unser Code ist verfügbar unter https://github.com/thu-nics/TaH.
Innovative visuelle Stilisierung ist ein Grundpfeiler der künstlerischen Schöpfung, doch die Erzeugung neuartiger und konsistenter visueller Stile bleibt eine große Herausforderung. Bestehende generative Ansätze stützen sich typischerweise auf umfangreiche textuelle Eingabeaufforderungen, Referenzbilder oder parameter-effizientes Fine-Tuning, um stilbewusste Bildgenerierung zu steuern, haben jedoch oft mit Stilkonsistenz, begrenzter Kreativität und komplexen Stilrepräsentationen zu kämpfen. In diesem Beitrag bekräftigen wir, dass ein Stil einen numerischen Code wert ist, indem wir die neuartige Aufgabe der Code-zu-Stil-Bildgenerierung einführen, die Bilder mit neuartigen, konsistenten visuellen Stilen erzeugt, die ausschließlich auf einem numerischen Stilcode basieren. Bislang wurde dieses Feld hauptsächlich nur von der Industrie (z.B. Midjourney) erkundet, ohne open-source Forschung aus der akademischen Gemeinschaft. Um diese Lücke zu schließen, schlagen wir CoTyle vor, die erste open-source Methode für diese Aufgabe. Konkret trainieren wir zunächst ein diskretes Stilcodebuch aus einer Sammlung von Bildern, um Stil-Einbettungen zu extrahieren. Diese Einbettungen dienen als Bedingungen für ein Text-zu-Bild-Diffusionsmodell (T2I-DM), um stilisierte Bilder zu generieren. Anschließend trainieren wir einen autoregressiven Stilgenerator auf den diskreten Stileinbettungen, um deren Verteilung zu modellieren, was die Synthese neuartiger Stileinbettungen ermöglicht. Während der Inferenz wird ein numerischer Stilcode durch den Stilgenerator auf eine eindeutige Stileinbettung abgebildet, und diese Einbettung steuert das T2I-DM bei der Generierung von Bildern im entsprechenden Stil. Im Gegensatz zu bestehenden Methoden bietet unser Ansatz unübertroffene Einfachheit und Vielfalt und erschließt einen riesigen Raum reproduzierbarer Stile aus minimaler Eingabe. Umfangreiche Experimente bestätigen, dass CoTyle effektiv einen numerischen Code in einen Stilcontroller verwandelt und demonstrieren, dass ein Stil einen Code wert ist.
Wir präsentieren AraLingBench: einen vollständig von Menschen annotierten Benchmark zur Bewertung der arabischen linguistischen Kompetenz von großen Sprachmodellen (LLMs). Der Benchmark umfasst fünf Kernkategorien: Grammatik, Morphologie, Rechtschreibung, Leseverständnis und Syntax, anhand von 150 von Experten entworfenen Multiple-Choice-Fragen, die direkt das strukturelle Sprachverständnis bewerten. Die Auswertung von 35 arabischen und zweisprachigen LLMs zeigt, dass aktuelle Modelle eine starke oberflächliche Beherrschung aufweisen, jedoch mit tiefergehendem grammatikalischem und syntaktischem Verständnis kämpfen. AraLingBench verdeutlicht eine anhaltende Lücke zwischen hohen Punktzahlen in wissensbasierten Benchmarks und wahrer linguistischer Meisterschaft, indem er zeigt, dass viele Modelle durch Auswendiglernen oder Mustererkennung erfolgreich sind, anstatt durch authentisches Verständnis. Durch die Isolierung und Messung grundlegender linguistischer Fähigkeiten bietet AraLingBench ein diagnostisches Rahmenwerk für die Entwicklung arabischer LLMs. Der vollständige Evaluationscode ist öffentlich auf GitHub verfügbar.
Foundation Models haben die künstliche Intelligenz in zahlreichen Domänen revolutioniert, doch ihr transformatives Potenzial bleibt im Bereich der Extreme Multi-label Classification (XMC) weitgehend ungenutzt. Bei XMC werden Anfragen mit relevanten Labels aus extrem großen Labelräumen verknüpft, wobei eine Balance zwischen Effizienz und Performance entscheidend ist. Daher modellieren viele aktuelle Ansätze XMC effizient als Maximum Inner Product Search zwischen Embeddings, die mit kleinen, encoder-basierten Transformer-Architekturen gelernt wurden. In diesem Beitrag behandeln wir zwei wichtige Aspekte von XMC: wie größere decoder-basierte Modelle effektiv genutzt werden können und wie visuelle Informationen bei gleichzeitiger Wahrung der Recheneffizienz erschlossen werden können. Wir zeigen, dass beide separat eine kritische Rolle in XMC spielen und kombiniert werden können, um die Leistung zu steigern. Wir demonstrieren, dass ein Decoder im Milliarden-Parameter-Bereich signifikante Verbesserungen erbringen kann, während der Rechenaufwand überschaubar bleibt. Darüber hinaus integriert unser Vision-enhanced eXtreme Multi-label Learning Framework (ViXML) Foundation Vision Models effizient durch das Pooling eines einzigen Embeddings pro Bild. Dies begrenzt den Rechenaufwand, eröffnet aber multimodale Fähigkeiten. Bemerkenswerterweise übertrifft ViXML mit kleinen Encodern in den meisten Fällen textbasierte Decoder, was zeigt, dass ein Bild Milliarden von Parametern wert ist. Abschließend präsentieren wir eine Erweiterung bestehender textbasierter Datensätze zur Nutzung visueller Metadaten und stellen diese für zukünftige Benchmarks zur Verfügung. Umfassende Experimente mit vier öffentlichen textbasierten Datensätzen und ihren entsprechenden bilderweiterten Versionen validieren die Wirksamkeit unserer Vorschläge, wobei auf dem größten Datensatz eine Steigerung von bis zu +8,21 % in P@1 gegenüber dem vorherigen State-of-the-Art erzielt wird. Der Code von ViXML ist unter https://github.com/DiegoOrtego/vixml verfügbar.
Während Chain-of-Thought (CoT) Prompting anspruchsvolles symbolisches Schließen in LLMs ermöglicht, bleibt es auf diskreten Text beschränkt und kann die kontinuierlichen, physikalisch gesteuerten Dynamiken der realen Welt nicht simulieren. Kürzlich aufgetauchte Videogenerationsmodelle haben sich als potenzielle Weltsimulatoren durch Chain-of-Frames (CoF) Reasoning erwiesen – dabei materialisiert sich der Gedanke als bildweise visuelle Sequenz, wobei jedes Einzelbild einen physikalisch fundierten Denkschritt repräsentiert. Trotz beeindruckender Demonstrationen besteht eine Herausforderung fort: Bestehende Benchmarks, die sich auf Wiedergabetreue oder Übereinstimmung konzentrieren, bewerten das CoF-Reasoning nicht und können somit keine Kernfähigkeiten im mehrstufigen Planen, algorithmischen Logikverständnis oder in der Extrapolation abstrakter Muster messen. Diese Bewertungslücke verhindert ein systematisches Verständnis der Modellfähigkeiten und eine prinzipiengeleitete Verbesserung. Wir stellen Gen-ViRe (Generative Visual Reasoning Benchmark) vor, ein Rahmenwerk, das in der Kognitionswissenschaft und realen KI-Anwendungen verankert ist und CoF-Reasoning in sechs kognitive Dimensionen – von der Wahrnehmungslogik bis zur abstrakten Planung – und 24 Teilaufgaben zerlegt. Durch Multi-Source-Datenkuratierung, minimale Prompting-Protokolle und eine hybride, VLM-unterstützte Evaluation mit detaillierten Kriterien liefert Gen-ViRe die erste quantitative Bewertung von Videomodellen als Reasoning-Systeme. Unsere Experimente mit State-of-the-Art-Systemen zeigen erhebliche Diskrepanzen zwischen beeindruckender visueller Qualität und der tatsächlichen Reasoning-Tiefe auf und etablieren so Baselines und Diagnosewerkzeuge, um die Entwicklung echter Weltsimulatoren voranzutreiben.
Selbstreflexionsmechanismen, die auf rein textbasierten Überdenkprozessen beruhen, schneiden bei den meisten multimodalen Aufgaben gut ab. Bei direkter Anwendung auf Szenarien zum Verständnis langformatiger Videos zeigen sie jedoch deutliche Grenzen. Die grundlegenden Gründe hierfür liegen in zwei Punkten: (1) Das Verständnis langformatiger Videos beinhaltet eine reichere und dynamischere visuelle Eingabe, was bedeutet, dass ein Überdenken nur der Textinformationen unzureichend ist und einen weiteren Überdenkprozess erfordert, der speziell auf visuelle Informationen abzielt; (2) Rein textbasierte Reflexionsmechanismen verfügen über keine Fähigkeiten zur cross-modalen Interaktion, was sie daran hindert, visuelle Informationen während der Reflexion vollständig zu integrieren. Angeregt durch diese Erkenntnisse schlagen wir REVISOR (REflective VIsual Segment Oriented Reasoning) vor, einen neuartigen Rahmenwerk für werkzeuggestützte multimodale Reflexion. REVISOR ermöglicht es MLLMs, introspective Reflexionsprozesse kollaborativ über textuelle und visuelle Modalitäten hinweg zu konstruieren und verbessert so erheblich ihre Schlussfolgerungsfähigkeit für das Verständnis langformatiger Videos. Um sicherzustellen, dass REVISOR während des bestärkenden Lernens lernt, genau die für die Frage hochrelevanten Videosegmente zu überprüfen, haben wir den Dual Attribution Decoupled Reward (DADR)-Mechanismus entwickelt. Dieser Mechanismus, integriert in die GRPO-Trainingsstrategie, erzwingt eine kausale Ausrichtung zwischen der Schlussfolgerung des Modells und den ausgewählten Videobeweisen. Bemerkenswerterweise verbessert das REVISOR-Rahmenwerk die Fähigkeit von MLLMs zum Verständnis langformatiger Videos erheblich, ohne dass eine zusätzliche überwachte Feinabstimmung oder externe Modelle erforderlich sind, und erzielt beeindruckende Ergebnisse auf vier Benchmark-Tests, darunter VideoMME, LongVideoBench, MLVU und LVBench.
Die Bewertung der Robustheit großer visuell-sprachlicher Modelle (LVLMs) ist entscheidend für ihre kontinuierliche Entwicklung und den verantwortungsvollen Einsatz in realen Anwendungen. Bisherige Robustheits-Benchmarks konzentrieren sich jedoch typischerweise auf Halluzinationen oder irreführende textuelle Eingaben und übersehen weitgehend die ebenso wichtige Herausforderung, die irreführende visuelle Eingaben für die Bewertung des visuellen Verständnisses darstellen. Um diese bedeutende Lücke zu schließen, stellen wir MVI-Bench vor, den ersten umfassenden Benchmark, der speziell zur Evaluierung entwickelt wurde, wie irreführende visuelle Eingaben die Robustheit von LVLMs untergraben. Basierend auf grundlegenden visuellen Primitive konzentriert sich das Design von MVI-Bench auf drei hierarchische Ebenen irreführender visueller Eingaben: Visuelles Konzept, Visuelles Attribut und Visuelle Beziehung. Anhand dieser Taxonomie haben wir sechs repräsentative Kategorien kuratiert und 1.248 fachkundig annotierte VQA-Instanzen zusammengestellt. Um eine granulare Robustheitsbewertung zu ermöglichen, führen wir zudem MVI-Sensitivity ein, eine neuartige Metrik, die die Robustheit von LVLMs auf feiner Ebene charakterisiert. Empirische Ergebnisse über 18 state-of-the-art LVLMs hinweg decken ausgeprägte Anfälligkeiten gegenüber irreführenden visuellen Eingaben auf, und unsere tiefgehenden Analysen auf MVI-Bench liefern umsetzbare Erkenntnisse, die die Entwicklung zuverlässigerer und robusterer LVLMs leiten können. Der Benchmark und der Codebase sind unter https://github.com/chenyil6/MVI-Bench zugänglich.
Wir stellen Orion vor, einen visuellen Agenten-Rahmen, der beliebige Modalitäten aufnehmen und generieren kann. Durch einen agentenbasierten Rahmen mit mehreren Tool-Calling-Fähigkeiten ist Orion für visuelle KI-Aufgaben konzipiert und erzielt state-of-the-art Ergebnisse. Im Gegensatz zu traditionellen Vision-Language-Modellen, die deskriptive Ausgaben erzeugen, orchestriert Orion eine Reihe spezialisierter Computer-Vision-Tools – einschließlich Objekterkennung, Keypoint-Lokalisierung, panoptischer Segmentierung, optischer Zeichenerkennung und geometrischer Analyse – um komplexe, mehrstufige visuelle Workflows auszuführen. Das System erzielt wettbewerbsfähige Leistungen auf MMMU, MMBench, DocVQA und MMLongBench und erweitert dabei monolithische Vision-Language-Modelle zu produktionsreifer visueller Intelligenz. Durch die Kombination von neuronaler Wahrnehmung mit symbolischer Ausführung ermöglicht Orion autonomes visuelles Reasoning und markiert damit den Übergang von passivem visuellem Verständnis zu aktiver, tool-gesteuerter visueller Intelligenz.
Große Sprachmodelle (LLMs) werden zunehmend für die Entwicklung von Agenten erforscht, die in der Lage sind, aktiv mit ihrer Umgebung zu interagieren (z. B. durch Werkzeugnutzung), um komplexe Probleme zu lösen. Reinforcement Learning (RL) wird als Schlüsseltechnologie mit großem Potenzial für das Training solcher Agenten angesehen; die effektive Anwendung von RL auf LLM-Agenten befindet sich jedoch noch in den Anfangsstadien und steht vor erheblichen Herausforderungen. Derzeit fehlt es in diesem aufstrebenden Forschungsgebiet an einer vertieften Erforschung von RL-Ansätzen, die speziell auf den Kontext von LLM-Agenten zugeschnitten sind, sowie an flexiblen und leicht erweiterbaren Trainingsframeworks für diesen Zweck. Um dieses Gebiet voranzubringen, geht dieses Papier zunächst auf Reinforcement-Learning-Methoden für LLM-Agenten ein, indem es den Markov-Entscheidungsprozess (MDP) systematisch erweitert, um die Schlüsselkomponenten eines LLM-Agenten umfassend zu definieren. Zweitens stellen wir Agent-R1 vor, ein modulares, flexibles und benutzerfreundliches Trainingsframework für RL-basierte LLM-Agenten, das für eine einfache Anpassung an verschiedene Aufgabenszenarien und interaktive Umgebungen konzipiert ist. Wir führten Experimente zu Benchmark-Aufgaben für Multihop-Fragebeantwortung (QA) durch, die eine erste Validierung der Wirksamkeit unserer vorgeschlagenen Methoden und unseres Frameworks liefern.
Omnimonale Large Language Models (OmniLLMs) haben in letzter Zeit zunehmend Forschungsinteresse für ein vereinheitlichtes Audio-Video-Verständnis geweckt, wobei die Verarbeitung von Audio-Video-Token-Sequenzen jedoch einen erheblichen rechnerischen Engpass darstellt. Bisherige Token-Kompressionsverfahren sind den neu entstehenden Bedarf einer gemeinsamen Komprimierung multimodaler Token noch nicht gerecht geworden. Um diese Lücke zu schließen, stellen wir OmniZip vor, ein trainingsfreies, audiogeführtes audiovisuelles Token-Kompressionsframework, das die multimodale Token-Repräsentation optimiert und die Inferenz beschleunigt. Konkret identifiziert OmniZip zunächst saliente Audio-Token, berechnet dann für jede Zeitsgruppe einen Audio-Beibehaltungswert, um die Informationsdichte zu erfassen, und leitet dadurch dynamisch das Ausdünnen von Video-Token an, wobei Hinweise von durch cross-modale Ähnlichkeit verstärkten Audio-Ankern bewahrt werden. Für jedes Zeitfenster komprimiert OmniZip die Video-Token mittels eines verschachtelten raum-zeitlichen Schemas. Umfangreiche empirische Ergebnisse belegen die Vorteile von OmniZip – es erreicht im Vergleich zu anderen hochperformanten Ansätzen eine 3,42-fache Beschleunigung der Inferenz und eine 1,4-fache Reduzierung des Speicherbedarfs, bei gleichbleibender Leistung ohne Training.
Die rasante Entwicklung großer Sprachmodelle (LLM) hat zu einer Leistungssättigung auf vielen etablierten Benchmarks geführt, was deren Fähigkeit infrage stellt, fortgeschrittene Modelle zu unterscheiden. Gleichzeitig leiden bestehende Benchmarks mit hohem Schwierigkeitsgrad oft unter einem engen disziplinären Fokus, übervereinfachten Antwortformaten und einer Anfälligkeit für Datenkontamination, was eine Treuekluft zur realen wissenschaftlichen Forschung erzeugt. Um diese Herausforderungen zu bewältigen, stellen wir ATLAS (AGI-Oriented Testbed for Logical Application in Science) vor, eine groß angelegte, hochschwierige und disziplinübergreifende Evaluierungssuite, die aus etwa 800 originären Problemen besteht. Entwickelt von Fachexperten (Promotionsniveau und höher), erstreckt sich ATLAS über sieben zentrale wissenschaftliche Felder: Mathematik, Physik, Chemie, Biologie, Informatik, Geowissenschaften und Materialwissenschaften. Seine Hauptmerkmale umfassen: (1) Hohe Originalität und Widerstandsfähigkeit gegen Kontamination, da alle Fragen neu erstellt oder substanziell angepasst wurden, um Testdatenlecks zu verhindern; (2) Disziplinübergreifender Fokus, konzipiert um die Fähigkeit der Modelle zu bewerten, Wissen zu integrieren und disziplinübergreifend zu schlussfolgern; (3) Hochwertige Antworten, die komplexe, offene Antworten mit mehrstufiger Argumentation und LaTeX-formatierten Ausdrücken priorisieren anstatt einfacher Multiple-Choice-Fragen; und (4) Strenge Qualitätskontrolle, die einen mehrstufigen Prozess mit Experten-Begutachtung und adversarieller Testung einsetzt, um Schwierigkeitsgrad, wissenschaftlichen Wert und Korrektheit der Fragen zu gewährleisten. Wir schlagen zudem ein robustes Evaluierungsparadigma vor, das ein Gremium von LLM-Beurteilern zur automatisierten, nuancierten Bewertung komplexer Antworten nutzt. Erste Ergebnisse mit führenden Modellen demonstrieren die Wirksamkeit von ATLAS, deren fortgeschrittene wissenschaftliche Denkfähigkeiten zu differenzieren. Wir planen, ATLAS zu einer langfristigen, offenen, gemeinschaftsgesteuerten Plattform zu entwickeln, um einen verlässlichen "Maßstab" für den Fortschritt hin zu einer Künstlichen Allgemeinen Intelligenz zu bieten.
Foundation Models haben sich als effektive Grundarchitekturen für viele Vision-Aufgaben erwiesen. Allerdings vermischen aktuelle selbstüberwachte Merkmale hochlevelige Semantik mit low-level physikalischen Faktoren wie Geometrie und Beleuchtung, was ihre Verwendung in Aufgaben erschwert, die explizite physikalische Schlussfolgerungen erfordern. In diesem Artikel stellen wir Φeat vor, eine neuartige physikalisch fundierte visuelle Basisarchitektur, die eine Repräsentation fördert, die empfindlich auf Materialidentität reagiert, einschließlich Reflexionshinweisen und geometrischer Mesostruktur. Unser zentraler Ansatz ist eine Pre-training-Strategie, die räumliche Ausschnitte und physikalische Augmentierungen desselben Materials unter variierenden Formen und Beleuchtungsbedingungen kontrastiert. Während ähnliche Daten bereits für hochwertige überwachte Aufgaben wie intrinsische Dekomposition oder Materialschätzung verwendet wurden, zeigen wir, dass eine rein selbstüberwachte Trainingsstrategie ohne explizite Labels bereits eine starke Priorität für Aufgaben liefert, die robuste Merkmale erfordern, die invariant gegenüber externen physikalischen Faktoren sind. Wir evaluieren die gelernten Repräsentationen durch Ähnlichkeitsanalysen von Merkmalen und Materialauswahl und zeigen, dass Φeat physikalisch fundierte Strukturen erfasst, die über semantische Gruppierungen hinausgehen. Diese Ergebnisse unterstreichen das Potenzial von unüberwachtem physikalischem Merkmalslernen als Grundlage für physikbewusste Wahrnehmung in Vision und Grafik.
Große Sprachmodelle (LLMs) sind leistungsstarke Zero- und Few-Shot-Lerner. Bei der Vorhersage über eine Menge von Kandidatenoptionen leiden LLMs jedoch unter Label-Bias, und bestehende Kalibrierungsmethoden übersehen Verzerrungen, die aus Multi-Token-Klassenlabels resultieren. Wir behandeln ein Problem, das wir als Label-Längen-Bias bezeichnen, bei dem Labels unterschiedlicher Länge inkonsistent behandelt werden, selbst nach standardmäßiger Längennormierung. Um dies zu mildern, schlagen wir die normalisierte kontextuelle Kalibrierung (NCC) vor, eine effektive Methode, die Vorhersagen auf der Ebene des vollständigen Labels normalisiert und kalibriert. NCC erzielt statistisch signifikante Verbesserungen gegenüber früheren Ansätzen über mehrere Datensätze und Modelle hinweg, mit Steigerungen von bis zu 10 % F1. Darüber hinaus erweitert NCC die Bias-Minderung auf breitere Aufgaben wie das Beantworten von Multiple-Choice-Fragen. Unsere Analyse zeigt, dass NCC in Kombination mit In-Context-Learning weniger empfindlich auf die Auswahl von Few-Shot-Beispielen reagiert, weniger Beispiele für wettbewerbsfähige Leistung benötigt und zuverlässigere Konfidenzschätzungen liefert. Diese Ergebnisse unterstreichen die Bedeutung der Minderung von Voll-Label-Bias, um die Leistung und Robustheit LLM-basierter Methoden zu verbessern, insbesondere in realen Anwendungen, bei denen Klassenlabels natürlicherweise aus mehreren Tokens bestehen.
Wir stellen proaktive Hörassistenten vor, die die Gesprächspartner des Nutzers automatisch identifizieren und separieren, ohne explizite Aufforderungen zu benötigen. Unser System verarbeitet egozentrische binaurale Audiodaten und nutzt die Eigenstimme des Nutzers als Ankerpunkt, indem es Sprecherwechsel und Dialogdynamik ausnutzt, um Gesprächspartner zu inferieren und andere Stimmen zu unterdrücken. Um Echtzeitverarbeitung direkt auf dem Endgerät zu ermöglichen, schlagen wir eine Dual-Model-Architektur vor: Ein leichtes Streaming-Modell läuft alle 12,5 ms für eine latenzarme Extraktion der Gesprächspartner, während ein langsameres Modell seltener läuft, um längerfristige Konversationsdynamiken zu erfassen. Ergebnisse auf realen Testdatensätzen mit 2 und 3 Sprechern – erhoben mit binauraler Egozentrik-Hardware von 11 Teilnehmern mit insgesamt 6,8 Stunden Daten – zeigen eine Generalisierungsfähigkeit bei der Identifikation und Isolierung von Gesprächspartnern in Multi-Konversations-Szenarien. Unsere Arbeit markiert einen Schritt hin zu Hörassistenten, die sich proaktiv an Konversationsdynamik und Gesprächsbeteiligung anpassen. Weitere Informationen finden Sie auf unserer Website: https://proactivehearing.cs.washington.edu/
Agentische Code-Tools erhalten Ziele in natürlicher Sprache als Eingabe, zerlegen sie in konkrete Aufgaben und schreiben oder führen den eigentlichen Code mit minimalem menschlichem Eingriff aus. Zentrale Bedeutung haben dabei Agenten-Kontextdateien ("READMEs für Agenten"), die persistente, projektbezogene Anweisungen bereitstellen. In diesem Artikel führen wir die erste großangelegte empirische Studie von 2.303 Agenten-Kontextdateien aus 1.925 Repositories durch, um deren Struktur, Wartung und Inhalte zu charakterisieren. Wir zeigen, dass diese Dateien keine statische Dokumentation sind, sondern komplexe, schwer lesbare Artefakte, die sich wie Konfigurationscode entwickeln und durch häufige, kleine Ergänzungen gepflegt werden. Unsere Inhaltsanalyse von 16 Anweisungstypen zeigt, dass Entwickler funktionalen Kontext priorisieren, wie Build- und Run-Befehle (62,3%), Implementierungsdetails (69,9%) und Architektur (67,7%). Wir identifizieren auch eine signifikante Lücke: Nicht-funktionale Anforderungen wie Sicherheit (14,5%) und Performance (14,5%) werden selten spezifiziert. Diese Ergebnisse deuten darauf hin, dass Entwickler Kontextdateien zwar nutzen, um Agenten funktionsfähig zu machen, aber kaum Vorkehrungen treffen, um sicherzustellen, dass agentengeschriebener Code sicher oder performant ist. Dies unterstreicht den Bedarf an verbesserten Werkzeugen und Praktiken.
Trotz jüngster Fortschritte bei 3D-LLMs bleiben diese in ihrer Fähigkeit eingeschränkt, Sprache präzise mit visuellen und räumlichen Elementen in 3D-Umgebungen zu verankern. Diese Einschränkung resultiert teilweise aus Trainingsdaten, die aufgrund knapper 3D-Ressourcen eher auf Sprachverständnis als auf räumliches Verständnis abzielen, wodurch inhärente Verankerungsverzerrungen ungelöst bleiben. Um dies zu adressieren, schlagen wir 3D-Szenenbearbeitung als einen Schlüsselmechanismus vor, um präzise visuelle Gegenfakten zu erzeugen, die diese Verzerrungen durch feingranulare räumliche Manipulation mildern, ohne kostspielige Szenenrekonstruktion oder großangelegte 3D-Datenerfassung zu erfordern. Des Weiteren führen wir DEER-3D ein, einen fehlergetriebenen Rahmen, der einem strukturierten "Zerlegen, Diagnostische Bewertung, Bearbeiten und Neu-Trainieren"-Workflow folgt, um diese Bearbeitungen zielgerichtet zu gestalten und spezifische Schwächen des Modells direkt anzugehen, anstatt Daten breit oder zufällig zu erweitern wie bei konventionellen Ansätzen. Konkret diagnostiziert unser Framework bei Erkennung eines Verankerungsfehlers des 3D-LLMs zunächst den exakten Prädikats-fehler (z.B. Attribut oder räumliche Relation). Anschließend führt es minimale, prädikat-spezifische 3D-Szenenänderungen wie Neufärbung oder Umpositionierung durch, um gezielte gegenfaktuelle Supervision für iteratives Modell-Feintuning zu erzeugen, was die Verankerungsgenauigkeit erheblich steigert. Wir evaluieren unsere Bearbeitungspipeline anhand mehrerer Benchmarks für 3D-Verankerung und Szenenverständnisaufgaben und zeigen durch iterative Verfeinerung konsistente Verbesserungen über alle evaluierten Datensätze hinweg. DEER-3D unterstreicht die Wirksamkeit zielgerichteter, fehlergetriebener Szenenbearbeitung zur Überbrückung von linguistischen Reasoning-Fähigkeiten und räumlicher Verankerung in 3D-LLMs.
Menschliche Emotionen sind schwer in Worte zu fassen und werden im Prozess der Verbalisierung oft abstrahiert; Elektroenzephalogramm (EEG)-Signale können hingegen einen direkteren Einblick in die emotionale Gehirnaktivität bieten. Jüngste Studien zeigen, dass Deep-Learning-Modelle diese Signale verarbeiten können, um eine Emotionserkennung mit hoher Genauigkeit durchzuführen. Viele bestehende Ansätze übersehen jedoch die dynamische Wechselwirkung zwischen verschiedenen Gehirnregionen, die entscheidend zum Verständnis beitragen kann, wie Emotionen entstehen und sich über die Zeit entwickeln, was potenziell eine genauere Emotionserkennung ermöglicht. Um dies zu adressieren, schlagen wir RBTransformer vor, eine Transformer-basierte neuronale Netzwerkarchitektur, die die neuralen Dynamiken zwischen kortikalen Regionen des Gehirns im latenten Raum modelliert, um strukturierte neuronale Interaktionen für eine effektive EEG-basierte Emotionserkennung besser zu erfassen. Zunächst werden die EEG-Signale in Band-Differential-Entropie (BDE)-Tokens umgewandelt, die dann durch Electrode-Identity-Embeddings geleitet werden, um die räumliche Herkunft beizubehalten. Diese Tokens werden durch aufeinanderfolgende interkortikale Multi-Head-Attention-Blöcke verarbeitet, die eine Elektrode-x-Elektrode-Attentionsmatrix konstruieren und es dem Modell ermöglichen, die neuralen Abhängigkeiten zwischen den kortikalen Regionen zu erlernen. Die resultierenden Merkmale werden anschließend durch einen Klassifikationskopf geleitet, um die endgültige Vorhersage zu erhalten. Wir führten umfangreiche Experimente unter subjektabhängigen Bedingungen an den SEED-, DEAP- und DREAMER-Datensätzen durch, über alle drei Dimensionen – Valenz, Erregung und Dominanz (für DEAP und DREAMER) – sowohl unter binären als auch unter Multi-Class-Klassifikationsbedingungen. Die Ergebnisse zeigen, dass der vorgeschlagene RBTransformer alle bisherigen State-of-the-Art-Methoden über alle drei Datensätze, alle drei Dimensionen und beide Klassifikationssettings hinweg übertrifft. Der Quellcode ist verfügbar unter: https://github.com/nnilayy/RBTransformer.
Chaos Engineering (CE) ist eine Ingenieurtechnik zur Verbesserung der Resilienz verteilter Systeme. Dabei werden gezielt Fehler in ein System injiziert, um seine Widerstandsfähigkeit zu testen, Schwachstellen aufzudecken und diese zu beheben, bevor sie zu Ausfällen in der Produktion führen. Moderne CE-Tools automatisieren die Ausführung vordefinierter CE-Experimente. Die Planung solcher Experimente und die Verbesserung des Systems auf Basis der Ergebnisse bleiben jedoch nach wie vor manuelle Prozesse. Diese Prozesse sind arbeitsintensiv und erfordern Expertise in mehreren Domänen. Um diese Herausforderungen zu bewältigen und es jedem zu ermöglichen, kostengünstig resiliente Systeme zu bauen, schlägt dieser Beitrag ChaosEater vor – ein System, das den gesamten CE-Zyklus mit Large Language Models (LLMs) automatisiert. Es definiert einen agentenbasierten Workflow gemäß einem systematischen CE-Zyklus vor und weist die unterteilten Prozesse innerhalb des Workflows LLMs zu. ChaosEater zielt auf CE für Softwaresysteme ab, die auf Kubernetes aufbauen. Daher erledigen die LLMs in ChaosEater CE-Zyklen durch Software-Engineering-Aufgaben, einschließlich Anforderungsdefinition, Code-Generierung, Testing und Debugging. Wir evaluieren ChaosEater durch Fallstudien an kleinen und großen Kubernetes-Systemen. Die Ergebnisse zeigen, dass es konsistent sinnvolle CE-Zyklen mit deutlich geringeren Zeit- und Geldkosten abschließt. Seine Zyklen werden zudem qualitativ von menschlichen Ingenieuren und LLMs validiert.
Große Vision-Sprach-Modelle (LVLMs) richten typischerweise visuelle Merkmale aus einem Encoder an einem vortrainierten Großsprachmodell (LLM) aus. Dadurch wird jedoch das visuelle Wahrnehmungsmodul zu einem Engpass, der die Gesamtfähigkeiten von LVLMs einschränkt. Konventionelle Evaluierungs-Benchmarks, obwohl reich an visueller Semantik, enthalten oft unvermeidbare lokale Abkürzungen, die zu einer Überschätzung der Wahrnehmungsfähigkeiten von Modellen führen können. Hier stellen wir TopoPerception vor, einen Benchmark, der topologische Eigenschaften nutzt, um die globalen visuellen Wahrnehmungsfähigkeiten von LVLMs über verschiedene Granularitäten hinweg rigoros zu bewerten. Da Topologie von der globalen Struktur eines Bildes abhängt und invariant gegenüber lokalen Merkmalen ist, ermöglicht TopoPerception eine abkürzungsfreie Bewertung der globalen Wahrnehmung, was ihn grundlegend von semantisch reichen Aufgaben unterscheidet. Wir evaluieren state-of-the-art Modelle mit TopoPerception und stellen fest, dass selbst bei der gröbsten Wahrnehmungsgranularität alle Modelle nicht besser als zufälliges Raten abschneiden, was auf ein tiefgreifendes Unvermögen hinweist, globale visuelle Merkmale zu erfassen. Bemerkenswerterweise zeigt sich ein konsistenter Trend innerhalb von Modellfamilien: leistungsstärkere Modelle mit besseren Reasoning-Fähigkeiten weisen eine geringere Genauigkeit auf. Dies deutet darauf hin, dass reine Skalierung von Modellen unzureichend ist, um dieses Defizit zu beheben, und es sogar verschärfen könnte. Fortschritt könnte neue Trainingsparadigmen oder Architekturen erfordern. TopoPerception legt nicht nur einen kritischen Engpass aktueller LVLMs offen, sondern bietet auch eine Perspektive und Richtung zur Verbesserung ihrer globalen visuellen Wahrnehmung. Die Daten und der Code sind öffentlich verfügbar unter: https://github.com/Wenhao-Zhou/TopoPerception.