papers.description
Code hat sich im Agentenzeitalter als präzises und ausführbares Medium für das Schließen und Handeln etabliert. Dennoch konzentrierte sich der Fortschritt bislang weitgehend auf sprachzentrierte Aufgaben wie Programmsynthese und Debugging, während visuell-zentriertes Codieren kaum erforscht wurde. Inspiriert davon, wie Menschen mit Skizzen schlussfolgern, plädieren wir für SVG-Code als kompakte, interpretierbare und ausführbare visuelle Repräsentation. Wir stellen VCode vor, einen Benchmark, der multimodales Verständnis als Code-Generierung neu definiert: Gegeben ein Bild muss ein Modell SVG-Code erzeugen, der die symbolische Bedeutung für nachgelagertes Schließen bewahrt. VCode umfasst drei Domänen – allgemeinen Common Sense (MM-Vet), professionelle Disziplinen (MMMU) und visuell-zentrierte Wahrnehmung (CV-Bench). Um die symbolische Treue zu bewerten, schlagen wir CodeVQA vor, ein neuartiges Evaluierungsprotokoll, bei dem ein Policy-Modell Fragen zu gerenderten SVGs beantwortet; korrekte Antworten zeigen eine getreue symbolische Bewahrung an. Empirisch kämpfen führende VLMs (Vision-Language Models) damit, treue SVGs zu generieren, was eine anhaltende Lücke zwischen sprachzentriertem und visuell-zentriertem Codieren offenbart. Um diese Lücke zu schließen, führen wir VCoder ein, ein agentenbasiertes Framework, das VLMs entlang zweier Achsen erweitert: (i) *Thinking with Revision*, das diskrepante Stellen iterativ analysiert und SVG-Code verfeinert; und (ii) *Acting with Visual Tools*, bei dem Detektoren und Parser strukturierte Hinweise wie Objekte, Formen und Text liefern, die über die intrinsischen Fähigkeiten des Modells hinausgehen. Über Benchmarks hinweg erzielen führende VLMs mit starken Reasoning-Fähigkeiten insgesamt gute Werte, bleiben aber in professionellem Wissen und 3D-Reasoning begrenzt. VCoder erzielt einen Gesamtzuwachs von 12,3 Punkten gegenüber dem leistungsstärksten Claude-4-Opus. Humanstudien zeigen, dass sowohl Menschen als auch VLMs bei gerenderten SVGs schlechter abschneiden; ihre Konsistenz offenbart jedoch das Potenzial symbolischer visueller Repräsentation. Der Benchmark und Code sind verfügbar unter https://github.com/CSU-JPG/VCode.
Der zunehmende Erfolg von Vision-Language-Action (VLA)-Modellen resultiert aus der Annahme, dass vortrainierte Vision-Language Models (VLMs) Agenten übertragbares Weltwissen und Vision-Language (VL)-Grundierung vermitteln können, was eine Grundlage für Aktionsmodelle mit breiterer Generalisierungsfähigkeit schafft. Wenn diese VLMs jedoch für die Aktionsmodalität adaptiert werden, bleibt unklar, in welchem Umfang ihre ursprünglichen VL-Repräsentationen und ihr Wissen erhalten bleiben. In dieser Arbeit führen wir eine systematische Untersuchung zur Beibehaltung von Repräsentationen während des VLA-Fine-Tunings durch und zeigen, dass naives Aktions-Fine-Tuning zu einer Verschlechterung der visuellen Repräsentationen führt. Um diese Effekte zu charakterisieren und zu messen, untersuchen wir die verborgenen Repräsentationen von VLA-Modellen und analysieren Attention-Maps. Darüber hinaus entwickeln wir eine Reihe gezielter Aufgaben und Methoden, die VLA-Modelle mit ihren VLM-Gegenstücken vergleichen, um durch das Aktions-Fine-Tuning induzierte Veränderungen der VL-Fähigkeiten zu isolieren. Wir evaluieren weiterhin eine Reihe von Strategien zur Ausrichtung visueller Repräsentationen und führen eine einfache, aber effektive Methode ein, die die Verschlechterung mildert und eine verbesserte Generalisierung für Out-of-Distribution (OOD)-Szenarien ermöglicht. Zusammengenommen klärt unsere Analyse den Kompromiss zwischen Aktions-Fine-Tuning und der Verschlechterung von VL-Repräsentationen und hebt praktische Ansätze hervor, um die vererbten VL-Fähigkeiten wiederherzustellen. Der Code ist öffentlich verfügbar: https://blind-vla-paper.github.io
Wir stellen MIRA vor, einen neuen Benchmark, der entwickelt wurde, um Modelle in Szenarien zu evaluieren, in denen die Erzeugung intermediärer visueller Bilder für erfolgreiches Schließen entscheidend ist. Im Gegensatz zu traditionellen CoT-Methoden (Chain of Thought), die sich ausschließlich auf Text stützen, erfordern Aufgaben in MIRA, dass Modelle Zwischenbilder – wie Skizzen, Strukturdiagramme oder Wegzeichnungen – generieren und nutzen, um ihren Denkprozess zu steuern. Dieser Aufbau spiegelt eng wider, wie Menschen komplexe Probleme durch „Denken durch Zeichnen“ lösen. Um dies zu adressieren, konzentriert sich MIRA auf Aufgaben, die intrinsisch anspruchsvoll sind und komplexe Strukturen, räumliche Beziehungen oder Denkschritte beinhalten, die sich schwer allein durch Sprache ausdrücken lassen. Um sicherzustellen, dass unsere Evaluationsdaten von hoher Qualität sind, beinhalten wir 546 multimodale Probleme, die mit intermediären visuellen Bildern und finalen Antworten annotiert sind. Wir schlagen zudem ein einheitliches Evaluationsprotokoll für MIRA vor, das drei Stufen von Evaluationsinput umspannt: Direktinput nur mit Bild und Frage, Text-only-CoT-Input mit Bild und Denkanstößen sowie Visual-CoT-Input mit sowohl annotierten Bildhinweisen als auch textuellen Denkanstößen. Um die Obergrenze der Modellkapazität auf unserem Benchmark auszuloten, berichten wir auch Pass@k- und Mehrheitsentscheidungs-Genauigkeiten unter verschiedenen k-Einstellungen. Experimentelle Ergebnisse zeigen, dass existierende multimodale Large Language Models, einschließlich der stärksten privaten Modelle sowie starker Open-Weight-Modelle, schlecht abschneiden, wenn sie sich ausschließlich auf textuelle Prompts verlassen. Werden jedoch intermediäre visuelle Hinweise bereitgestellt, verbessert sich die Modellleistung konsistent und erzielt einen durchschnittlichen relativen Zuwachs von 33,7 % über alle Modelle und Aufgaben hinweg. Wir loten die Obergrenze auch aus, indem wir den Suchraum erweitern und textuelle Prompts entwerfen, die mit Visual-CoT abgestimmt sind, doch beide Ansätze bringen nur begrenzte Verbesserungen im Vergleich zu unserer Visual-CoT-Einstellung. Diese Ergebnisse unterstreichen die kritische Rolle von vorgestellten visuellen Informationen für erfolgreiches Schließen in MIRA.
Wir präsentieren Step-Audio-EditX, das erste quelloffene, LLM-basierte Audiomodell, das sich durch ausdrucksstarke und iterative Audio-Bearbeitung auszeichnet und dabei Emotionen, Sprechstil und Paralinguistik umfasst, kombiniert mit robusten Zero-Shot-Text-to-Speech (TTS)-Fähigkeiten. Unsere zentrale Innovation besteht in der Nutzung ausschließlich synthetischer Daten mit großen Margen, was den Bedarf an einbettungsbasierten Priors oder Hilfsmodulen umgeht. Dieser Large-Margin-Lernansatz ermöglicht sowohl iterative Steuerung als auch hohe Expressivität über verschiedene Stimmen hinweg und stellt eine grundlegende Abkehr vom konventionellen Fokus auf Entflechtung auf Repräsentationsebene dar. Evaluierungsergebnisse belegen, dass Step-Audio-EditX sowohl MiniMax-2.6-hd als auch Doubao-Seed-TTS-2.0 in der Emotionsbearbeitung und anderen feinkörnigen Steuerungsaufgaben übertrifft.
Multimodale große Sprachmodelle (MLLMs) müssen Konflikte auflösen, wenn verschiedene Modalitäten widersprüchliche Informationen liefern – einen Prozess, den wir als Modalitätsfolge bezeichnen. Bisherige Arbeiten maßen dieses Verhalten nur mit groben, datensatzweiten Statistiken und übersahen dabei den Einfluss des Modellvertrauens in unimodales Schlussfolgern. In diesem Artikel stellen wir einen neuen Rahmen vor, der Modalitätsfolge in zwei grundlegende Faktoren zerlegt: relative Schlussfolgerungsunsicherheit (der fall spezifische Vertrauensabstand zwischen unimodalen Vorhersagen) und inhärente Modalitätspräferenz (eine stabile Verzerrung eines Modells bei ausgeglichenen Unsicherheiten). Um diesen Rahmen zu validieren, konstruieren wir einen kontrollierbaren Datensatz, der die Schwierigkeit des visuellen und textuellen Schlussfolgerns systematisch variiert. Unter Verwendung von Entropie als feinkörniges Unsicherheitsmaß entdecken wir ein universelles Gesetz: Die Wahrscheinlichkeit, einer Modalität zu folgen, nimmt monoton ab, wenn ihre relative Unsicherheit zunimmt. Auf der relativen Schwierigkeitsstufe, bei der das Modell dazu neigt, beiden Modalitäten mit vergleichbarer Wahrscheinlichkeit zu folgen – was wir als Gleichgewichtspunkt bezeichnen –, zeigt sich ein praktischer Indikator für die inhärente Präferenz des Modells. Im Gegensatz zu traditionellen Makro-Verhältnissen bietet dieses Maß eine prinzipiellere und weniger konfundierte Möglichkeit, die Modalitätsverzerrung zu charakterisieren, indem es diese von unimodalen Fähigkeiten und Datensatzartefakten entkoppelt. Durch die Untersuchung von Vorhersagen auf verschiedenen Modellschichten zeigen wir zudem den internen Mechanismus der Oszillation auf: In mehrdeutigen Bereichen nahe dem Gleichgewichtspunkt schwanken Modelle zwischen den Modalitäten über die Schichten hinweg, was die extern beobachtete Unentschlossenheit erklärt. Zusammengenommen etablieren diese Erkenntnisse relative Unsicherheit und inhärente Präferenz als die beiden bestimmenden Prinzipien der Modalitätsfolge und bieten sowohl einen quantitativen Rahmen als auch mechanistische Einblicke darin, wie MLLMs widersprüchliche Informationen auflösen.
Die Entwicklungspfade der KI deuten darauf hin, dass wir zunehmend auf agentenbasierte Systeme angewiesen sein werden, die aus unabhängig entwickelten Agenten mit unterschiedlichen Informationen, Berechtigungen und Werkzeugen bestehen. Der Erfolg dieser Systeme wird maßgeblich von einer effektiven Zusammenarbeit zwischen diesen heterogenen Agenten abhängen, selbst unter eingeschränkter Beobachtbarkeit. Trotz großem Interesse gibt es nur wenige empirische Studien, die solche Agenten-Agenten-Kollaboration in größerem Maßstab evaluiert haben. Wir schlagen einen Benchmark zur Lösung kollaborativer Labyrinthe vor, der (i) kollaborative Fähigkeiten isoliert, (ii) die Problemkomplexität moduliert, (iii) skalierbare automatische Bewertung ermöglicht und (iv) keine Einschränkungen des Ausgabeformats auferlegt, wodurch die ökologische Plausibilität gewahrt bleibt. Mit diesem Framework evaluieren wir 32 führende Open-Source- und Closed-Source-Modelle in Einzel-, homogenen und heterogenen Paarkonstellationen. Unsere Ergebnisse zeigen eine "Kollaborationslücke": Modelle, die alleine gut abschneiden, verschlechtern sich oft erheblich, wenn sie zusammenarbeiten müssen. Die Zusammenarbeit kann dramatisch scheitern; beispielsweise können kleine destillierte Modelle, die Labyrinthe alleine gut lösen, in bestimmten Paarungen fast vollständig versagen. Wir stellen fest, dass ein Start mit dem stärkeren Agenten die Ergebnisse oft verbessert, was einen "Relay-Inference"-Ansatz motiviert, bei dem der stärkere Agent die Führung übernimmt, bevor er an den schwächeren übergibt und so den Großteil der Lücke schließt. Unsere Ergebnisse sprechen für (1) kollaborationsbewusste Evaluation, (2) Trainingsstrategien zur Verbesserung kollaborativer Fähigkeiten und (3) Interaktionsdesign, das die latenten Fähigkeiten von Agenten zuverlässig abruft – Leitlinien, die für KI-KI- und Mensch-KI-Kollaboration gleichermaßen gelten.
Die Rekonstruktion von Bildern, die Menschen sehen, aus ihren fMRT-Hirnaufzeichnungen bietet ein nicht-invasives Fenster ins menschliche Gehirn. Trotz jüngster Fortschritte durch Diffusionsmodelle mangelt es aktuellen Methoden oft an Treue zu den tatsächlich gesehenen Bildern. Wir stellen "Brain-IT" vor, einen hirninspirierten Ansatz, der diese Herausforderung durch einen Brain Interaction Transformer (BIT) adressiert. Dieser ermöglicht effektive Interaktionen zwischen Clustern funktionell ähnlicher Hirnvoxel. Diese funktionellen Cluster sind für alle Versuchspersonen gleich und dienen als Bausteine zur Integration von Informationen innerhalb und zwischen Gehirnen. Alle Modellkomponenten werden von allen Clustern und Probanden gemeinsam genutzt, was ein effizientes Training auch mit begrenzten Datenmengen erlaubt. Um die Bildrekonstruktion zu steuern, sagt BIT zwei komplementäre, lokalisierte patch-basierte Bildmerkmale vorher: (i) hochlevelige semantische Merkmale, die das Diffusionsmodell zum korrekten semantischen Inhalt des Bildes lenken; und (ii) low-level strukturelle Merkmale, die den Diffusionsprozess mit der korrekten groben Bildanordnung initialisieren. BITs Design ermöglicht einen direkten Informationsfluss von Hirnvoxel-Clustern zu lokalen Bildmerkmalen. Durch diese Prinzipien erreicht unsere Methode Bildrekonstruktionen aus fMRT-Daten, die die gesehenen Bilder originalgetreu rekonstruieren und aktuelle State-of-the-Art-Ansätze sowohl visuell als auch mittels standardisierter objektiver Metriken übertreffen. Darüber hinaus erzielen wir mit nur einstündigen fMRT-Daten eines neuen Probanden Ergebnisse, die mit aktuellen Methoden vergleichbar sind, die mit vollständigen 40-Stunden-Aufzeichnungen trainiert wurden.
Große Sprachmodelle (LLMs), die auf schrittweises Denken trainiert sind, neigen oft zu übermäßiger Ausführlichkeit, was die Inferenzkosten erhöht. Standard-Pipelines für Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) filtern „einfache“ Probleme aus Effizienzgründen heraus, sodass das Modell hauptsächlich an schwierigeren Problemen mit längeren Denkketten trainiert. Dies verzerrt die Verteilung der Ausgabelängen nach oben und führt zu einem Modell, das „länger nachdenken“ mit „besser nachdenken“ verwechselt. In dieser Arbeit zeigen wir, dass das Beibehalten und moderate Übergewichten mäßig einfacher Probleme als impliziter Längenregulator wirkt. Indem das Modell lösbaren Aufgaben mit kurzen Denkketten ausgesetzt wird, wird seine Ausgabeverteilung eingeschränkt und unkontrollierte Weitschweifigkeit verhindert. Das Ergebnis ist *emergent Kürze ohne zusätzlichen Aufwand*: Das Modell lernt, schwierigere Probleme zu lösen, ohne die Ausgabelänge aufzublähen, obwohl keinerlei explizite Längenbestrafung erfolgt. RLVR-Experimente mit diesem Ansatz auf Qwen3-4B-Thinking-2507 (mit einem 16k-Token-Limit) erreichen die Baseline-Accuracy von pass@1 AIME25, während die generierten Lösungen im Durchschnitt fast doppelt so kurz sind. Der Code ist verfügbar unter https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, Datensätze und Modelle finden sich auf https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
Große multimodale Modelle (LMMs) leiden häufig unter erheblicher Inferenzineffizienz, verursacht durch die große Anzahl visueller Tokens, die von Bildencodern eingeführt werden. Obwohl neuere Token-Kompressionsmethoden wie Pruning und Zusammenführen vielversprechende Redundanzreduktion zeigen, bleibt ihre Evaluierung fragmentiert und inkonsistent. In dieser Arbeit stellen wir UniPruneBench vor, einen vereinheitlichten und erweiterbaren Benchmark für visuelles Token-Pruning in multimodalen LLMs. UniPruneBench bietet standardisierte Protokolle über sechs Fähigkeitsdimensionen und zehn Datensätze hinweg, die zehn repräsentative Kompressionsalgorithmen und drei Familien von LMMs (LLaVA-v1.5, Intern-VL3 und Qwen2.5-VL) abdecken. Über Aufgabengenauigkeit hinaus integriert es systemweite Metriken wie Laufzeit und Prefilling-Latenz, um eine ganzheitliche Sicht zu bieten. Unsere Experimente zeigen mehrere zentrale Erkenntnisse: (1) Zufälliges Pruning ist ein überraschend starker Baseline, (2) keine Methode übertrifft konsistent andere über alle Szenarien hinweg, (3) die Pruning-Empfindlichkeit variiert erheblich zwischen Aufgaben, wobei OCR am anfälligsten ist, und (4) das Pruning-Verhältnis ist der dominante Faktor für Leistungsverschlechterung. Wir sind überzeugt, dass UniPruneBench eine verlässliche Grundlage für zukünftige Forschung zu effizienter multimodaler Modellierung bieten wird.
Aktuelle Benchmarks für Code bewerten Sprachmodelle (LMs) anhand konkreter, klar definierter Aufgaben, wie das Beheben spezifischer Fehler oder das Schreiben gezielter Tests. Menschliche Programmierer verbringen jedoch nicht den ganzen Tag damit, isolierte Aufgaben zu bearbeiten. Stattdessen basiert realistische Softwareentwicklung auf der Verfolgung übergeordneter Ziele, wie der Verbesserung der Nutzerbindung oder der Senkung von Kosten. Die Bewertung, ob LMs ebenfalls in der Lage sind, Code iterativ so zu entwickeln, dass er offene Ziele ohne explizite Anleitung besser erreicht, bleibt eine ungelöste Herausforderung. Um dies anzugehen, stellen wir CodeClash vor, einen Benchmark, bei dem LMs in mehrrundigen Turnieren gegeneinander antreten, um die beste Codebasis zur Erreichung eines wettbewerbsorientierten Ziels zu erstellen. Jede Runde verläuft in zwei Phasen: Agenten bearbeiten ihren Code, dann treten ihre Codebasen in einer Code-Arena direkt gegeneinander an, in der Gewinner anhand von Zielen wie Punktemaximierung, Ressourcenbeschaffung oder Überleben ermittelt werden. Ob sie Notizen schreiben, Dokumentation prüfen, Wettbewerbslogs analysieren oder Test-Suiten erstellen – die Modelle müssen selbst entscheiden, wie sie ihre Codebasen sowohl absolut als auch im Vergleich zu ihren Gegnern verbessern. Wir führten 1680 Turniere (insgesamt 25.200 Runden) durch, um 8 LMs in 6 Arenen zu bewerten. Unsere Ergebnisse zeigen, dass Modelle zwar unterschiedliche Entwicklungsstile aufweisen, aber grundlegende Grenzen im strategischen Denken teilen. Modelle haben auch Schwierigkeiten mit der langfristigen Wartung der Codebasis, da Repositories zunehmend unübersichtlich und redundant werden. Diese Einschränkungen sind deutlich: Top-Modelle verlieren jede Runde gegen erfahrene menschliche Programmierer. Wir veröffentlichen CodeClash als Open Source, um die Erforschung autonomer, zielorientierter Codeentwicklung voranzutreiben.
Großskalige Daten haben Durchbrüche in der Robotik ermöglicht, von Sprachmodellen bis hin zu Vision-Language-Action-Modellen für die bimanuelle Manipulation. Dennoch mangelt es in der humanoiden Robotik an ebenso effektiven Datenerfassungsframeworks. Bestehende Teleoperationssysteme für humanoide Roboter verwenden entweder entkoppelte Steuerung oder sind auf teure Motion-Capture-Setups angewiesen. Wir stellen TWIST2 vor, ein portables, mocap-freies Teleoperations- und Datenerfassungssystem für humanoide Roboter, das die vollständige Ganzkörpersteuerung beibehält und gleichzeitig die Skalierbarkeit verbessert. Unser System nutzt PICO4U VR zur Erfassung von Echtzeit-Ganzkörperbewegungen des Menschen, kombiniert mit einem maßgeschneiderten 2-DoF-Roboterhals (Kosten ca. 250 US-Dollar) für die egozentrische Wahrnehmung, was eine ganzheitliche Mensch-zu-Humanoid-Steuerung ermöglicht. Wir demonstrieren langfristige, geschickte und mobile Fähigkeiten humanoid
Aktuelle Evaluierungsparadigmen für große Sprachmodelle (LLMs) stellen einen kritischen blinden Fleck in der KI-Forschung dar – sie stützen sich auf undurchsichtige numerische Metriken, die grundlegende Limitationen im räumlichen Denken verschleiern und gleichzeitig kein intuitives Verständnis der Modellfähigkeiten vermitteln. Dieser Mangel erzeugt eine gefährliche Diskrepanz zwischen berichteter Leistung und praktischen Fähigkeiten, insbesondere für Anwendungen, die ein Verständnis der physischen Welt erfordern. Wir stellen LTD-Bench vor, einen bahnbrechenden Benchmark, der die Bewertung von LLMs von abstrakten Scores auf direkt beobachtbare visuelle Ausgaben transformiert, indem Modelle dazu aufgefordert werden, Zeichnungen durch Punktmatrizen oder ausführbaren Code zu generieren. Dieser Ansatz macht die Grenzen des räumlichen Denkens selbst für Laien unmittelbar ersichtlich und überbrückt die fundamentale Lücke zwischen statistischer Leistung und intuitiver Bewertung. LTD-Bench implementiert eine umfassende Methodik mit komplementären Generierungsaufgaben (zur Überprüfung der räumlichen Vorstellungskraft) und Erkennungsaufgaben (zur Bewertung der räumlichen Wahrnehmung) über drei progressiv anspruchsvollere Schwierigkeitsgrade hinweg, wodurch beide Richtungen der kritischen Sprach-Raum-Zuordnung methodisch evaluiert werden. Unsere umfangreichen Experimente mit state-of-the-art Modellen decken eine alarmierende Fähigkeitslücke auf: Selbst LLMs, die bei traditionellen Benchmarks beeindruckende Ergebnisse erzielen, weisen tiefgreifende Defizite beim Aufbau bidirektionaler Abbildungen zwischen Sprache und räumlichen Konzepten auf – eine grundlegende Einschränkung, die ihr Potenzial als genuine Weltmodelle untergräbt. Darüber hinaus ermöglichen die visuellen Ausgaben von LTD-Bench eine leistungsstarke Diagnoseanalyse und bieten einen potenziellen Ansatz zur Untersuchung von Modellähnlichkeiten.
Tests an echten Maschinen sind für Robotiksteuerungsalgorithmen unverzichtbar. Im Kontext lernbasierter Algorithmen, insbesondere von VLA-Modellen, wird die Forderung nach groß angelegten Evaluationen – also dem Testen einer großen Anzahl von Modellen an einer Vielzahl von Aufgaben – zunehmend dringlicher. Dies jedoch korrekt umzusetzen ist äußerst anspruchsvoll, insbesondere wenn Skalierbarkeit und Reproduzierbarkeit berücksichtigt werden. In diesem Bericht beschreiben wir unsere Methodik zur Entwicklung von RoboChallenge, eines Online-Bewertungssystems zum Testen von Robotiksteuerungsalgorithmen, sowie unsere Untersuchung aktueller state-of-the-art VLA-Modelle mithilfe unseres initialen Benchmarks Table30.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in zahlreichen realen Anwendungen unter Beweis gestellt. Während die überwiegende Mehrheit der aus experimenteller Perspektive durchgeführten Forschung rasch voranschreitet, erfordert sie erhebliche Rechenleistung, Daten und andere Ressourcen. Daher ist es zu einer entscheidenden Herausforderung geworden, wie man die Black-Box der LLMs aus theoretischer Sicht öffnen kann. Dieser Aufsatz nimmt die Theorie der Raten-Distortions-Funktion, der gerichteten Information und der Granger-Kausalität als Ausgangspunkt, um die informationstheoretischen Prinzipien hinter LLMs zu untersuchen. Dies führt zur Entwicklung einer semantischen Informationstheorie für LLMs, in der die fundamentale Einheit das Token ist und nicht Bits, denen jede Semantik fehlt. Durch die Definition des probabilistischen Modells von LLMs diskutieren wir architekturunabhängige informationstheoretische Maße, wie die gerichtete Raten-Distortions-Funktion im Pre-Training, die gerichtete Raten-Belohnungs-Funktion im Post-Training und den semantischen Informationsfluss in der Inferenzphase. Dieser Aufsatz geht auch tief in die Theorie der semantischen Token-Einbettung und die informationstheoretisch optimale Vektorisierungsmethode ein. Danach schlagen wir eine allgemeine Definition des autoregressiven LLMs vor, aus der die Transformer-Architektur und ihre Leistungskennzahlen wie ELBO, Generalisierungsfehlerschranke, Speicherkapazität und semantische Informationsmaße theoretisch abgeleitet werden können. Andere Architekturen, wie Mamba/Mamba2 und LLaDA, werden ebenfalls in unserem Rahmen diskutiert. Folglich bietet dieser Aufsatz einen theoretischen Rahmen zum Verständnis von LLMs aus der Perspektive der semantischen Informationstheorie, der auch die notwendigen theoretischen Werkzeuge für weiterführende vertiefte Forschung bereitstellt.
Wir stellen iFlyBot-VLA vor, ein großskaliges Vision-Language-Action (VLA)-Modell, das unter einem neuartigen Framework trainiert wurde. Die Hauptbeiträge sind wie folgt aufgelistet: (1) ein latentes Aktionsmodell, das umfassend auf großskaligen menschlichen und robotischen Manipulationsvideos trainiert wurde; (2) ein duales Aktionsrepräsentationsframework, das sowohl das Vision-Language-Model (VLM) als auch den Aktions-Experten während des Trainings gemeinsam überwacht; (3) eine gemischte Trainingsstrategie, die Robotertrajektoriendaten mit allgemeinen QA- und räumlichen QA-Datensätzen kombiniert und dadurch effektiv die 3D-Wahrnehmungs- und Reasoning-Fähigkeiten des VLM-Backbones verbessert. Konkret wird das VLM darauf trainiert, zwei komplementäre Formen von Aktionen vorherzusagen: latente Aktionen, die von unserem auf Cross-Embodiment-Manipulationsdaten vortrainierten latenten Aktionsmodell abgeleitet werden und implizite hochlevelige Intentionen erfassen; und strukturierte diskrete Aktions-Tokens, die durch Frequenzbereichstransformationen kontinuierlicher Steuersignale gewonnen werden und explizite low-level Dynamiken kodieren. Diese duale Überwachung aligniert die Repräsentationsräume von Sprache, Vision und Aktion und ermöglicht es dem VLM, direkt zur Aktionsgenerierung beizutragen. Experimentelle Ergebnisse auf dem LIBERO-Franka-Benchmark demonstrieren die Überlegenheit unseres Frameworks, während Evaluationen in der realen Welt weiterhin zeigen, dass iFlyBot-VLA wettbewerbsfähige Erfolgsquoten über diverse und anspruchsvolle Manipulationsaufgaben hinweg erreicht. Darüber hinaus planen wir, einen Teil unseres selbst erstellten Datensatzes zu open-sourcen, um zukünftige Forschung in der Community zu unterstützen.
Große Sprachmodelle haben auf vielen etablierten Reasoning-Benchmarks eine starke Leistung gezeigt. Diese Benchmarks bewerten jedoch primär strukturierte Fähigkeiten wie quantitatives Problemlösen, wodurch eine Lücke bei der Bewertung flexibler, vielschichtiger Denkfähigkeiten bleibt, die für die menschliche Intelligenz zentral sind. Diese Fähigkeiten erfordern die Integration von logischer Deduktion mit räumlichem Vorstellungsvermögen und der Erfüllung von Randbedingungen, was von aktuellen Evaluationen nicht gut erfasst wird. Um dies zu adressieren, stellen wir RiddleBench vor, einen Benchmark mit 1.737 anspruchsvollen Rätseln auf Englisch, der entwickelt wurde, um diese grundlegenden Denkfähigkeiten zu untersuchen. Die Evaluation von modernsten Modellen auf RiddleBench zeigt fundamentale Schwächen auf. Selbst führende proprietäre Modelle wie Gemini 2.5 Pro, o3 und Claude 4 Sonnet erreichen nur eine Genauigkeit knapp über 60 % (60,30 %, 63,37 % und 63,16 %). Analysen zeigen weiterhin tiefgreifende Fehler auf, einschließlich Halluzinationskaskaden (das Akzeptieren fehlerhafter Schlussfolgerungen anderer Modelle) und eine schlechte Selbstkorrektur aufgrund eines starken Selbstbestätigungsfehlers. Ihr logisches Denken ist zudem fragil, wobei die Leistung erheblich abfällt, wenn Randbedingungen umgeordnet oder irrelevante Informationen eingeführt werden. RiddleBench dient als Diagnosewerkzeug für diese Probleme und als Ressource zur Steuerung der Entwicklung robusterer und zuverlässigerer Sprachmodelle.
Komplexe Diagrammverständnisaufgaben erfordern fortgeschrittene visuelle Erkennungs- und logische Schlussfolgerungsfähigkeiten von multimodalen großen Sprachmodellen (MLLMs). Die aktuelle Forschung bietet jedoch nur eine begrenzte Abdeckung komplexer Diagrammszenarien und rechenintensiver Denkaufgaben, die in realen Anwendungen weit verbreitet sind. Diese Studie schlägt eine automatisierte, mehrstufige, codegesteuerte Pipeline zur systematischen Generierung visueller Reasoning-Datensätze vor, um diese Einschränkungen zu adressieren. Die Pipeline integriert Retrieval-Augmented Generation (RAG), um professionelle Diagrammvorlagen abzurufen, und nutzt Chain-of-Thought (CoT)-Strategien, um Reasoning-Codes zu generieren, die reale Datenverteilungen simulieren und dadurch das Diagramm-Rendering sowie fragebezogene statistische Berechnungen antreiben. Durch modellbasierte Evaluation verbessert die Pipeline die Diagrammvielfalt und Datenqualität. Mit diesem Framework konstruieren wir ChartM^3, einen multidimensionalen und mehrstufigen Datensatz, der 38.000 Diagramme und 142.000 Frage-Antwort-Paare für das Training sowie 2.871 hochwertige Evaluierungsstichproben für eine praxisnahe Leistungsbewertung enthält. Überwachte Feinabstimmung (SFT) und Verstärkungslernen (RL)-Experimente zeigen, dass unser Datensatz die Reasoning-Fähigkeiten und die domänenübergreifende Generalisierungsleistung signifikant verbessert und es kleineren Modellen ermöglicht, eine mit größeren Modellen vergleichbare Leistung im komplexen Diagrammverständnis zu erreichen.
Das Verständnis und die Vorhersage von Emotionen in Videos hat in jüngsten Studien, bedingt durch Fortschritte bei Video-Large-Language-Models (VideoLLMs), erheblich an Bedeutung gewonnen. Obwohl fortschrittliche Methoden Fortschritte in der Video-Emotionsanalyse erzielt haben, stellt die intrinsische Natur von Emotionen erhebliche Herausforderungen dar. Emotionen sind durch dynamische und kontextabhängige Eigenschaften gekennzeichnet, was es schwierig macht, komplexe und sich entwickelnde emotionale Zustände mit nachvollziehbaren Begründungen zu verstehen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges, affektiv geleitetes Reasoning-Framework vor, das grundlegende Attributwahrnehmung, Ausdrucksanalyse und hochrangiges Emotionsverständnis stufenweise vereint. Kern unseres Ansatzes ist eine Familie von Video-Emotions-Foundation-Models (VidEmo), die speziell für Emotionsreasoning und Befolgung von Instruktionen entwickelt wurden. Diese Modelle durchlaufen einen zweistufigen Abstimmungsprozess: erstens curriculum-basiertes Emotionslernen zur Vermittlung von Emotionswissen, gefolgt von affektiv-baumbasiertem bestärkendem Lernen für das Emotionsreasoning. Darüber hinaus schaffen wir eine grundlegende Dateninfrastruktur und führen einen emotionszentrierten, feinkörnigen Datensatz (Emo-CFG) ein, der 2,1 Millionen verschiedene instruktionsbasierte Beispiele umfasst. Emo-CFG enthält erklärbare emotionale Frage-Antwort-Paare, feinkörnige Beschreibungen und zugehörige Begründungen, die wesentliche Ressourcen für die Weiterentwicklung von Emotionsverständnisaufgaben bereitstellen. Experimentelle Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistung erzielt und einen neuen Meilenstein über 15 Gesichtswahrnehmungsaufgaben hinweg setzt.
In dieser Arbeit stellen wir LiveSecBench vor, einen dynamischen und kontinuierlich aktualisierten Sicherheitsmaßstab speziell für chinesischsprachige LLM-Anwendungsszenarien. LiveSecBench bewertet Modelle in sechs kritischen Dimensionen (Rechtmäßigkeit, Ethik, Faktizität, Privatsphäre, Robustheit gegenüber Adversarial Attacks und Sicherheit des Schlussfolgerns), die in den chinesischen rechtlichen und sozialen Rahmenwerken verankert sind. Dieser Benchmark gewährleistet seine Relevanz durch einen dynamischen Aktualisierungszyklus, der neue Bedrohungsvektoren integriert, wie die geplante Aufnahme von Sicherheit bei Text-zu-Bild-Generierung und Agenten-Sicherheit im nächsten Update. Derzeit hat LiveSecBench (v251030) 18 LLMs evaluiert und bietet damit einen Überblick über die KI-Sicherheit im Kontext der chinesischen Sprache. Die Bestenliste ist öffentlich zugänglich unter https://livesecbench.intokentech.cn/.
Während die globale Belastung durch die Alzheimer-Krankheit (AD) weiter zunimmt, ist eine frühzeitige und genaue Erkennung zunehmend entscheidend geworden, insbesondere in Regionen mit eingeschränktem Zugang zu fortschrittlichen Diagnosewerkzeugen. Wir schlagen BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) vor, um diese Herausforderung zu bewältigen. Dieses neuartige System nutzt die leistungsstarken Reasoning-Fähigkeiten von Large Language Models (LLMs) zur Erkennung und Überwachung von Alzheimer. BRAINS zeichnet sich durch eine Dual-Modul-Architektur aus: ein kognitives Diagnosemodul und ein Fallabrufmodul. Das Diagnosemodul nutzt LLMs, die auf kognitiven und neuroimaging-Datensätzen – einschließlich MMSE, CDR-Scores und Hirnvolumen-Metriken – feinabgestimmt wurden, um strukturierte Bewertungen des Alzheimer-Risikos durchzuführen. Währenddessen kodiert das Fallabrufmodul Patient:innenprofile in latente Repräsentationen und ruft ähnliche Fälle aus einer kuratierten Wissensdatenbank ab. Diese ergänzenden Fälle werden über eine Case-Fusion-Layer mit dem Eingabeprofil fusioniert, um das kontextuelle Verständnis zu verbessern. Die kombinierte Repräsentation wird dann mit klinischen Prompts für die Inferenz verarbeitet. Evaluationen an realen Datensätzen demonstrieren die Wirksamkeit von BRAINS bei der Klassifizierung des Krankheitsschweregrads und der Identifizierung früher Anzeichen kognitiven Abbaus. Dieses System zeigt nicht nur ein starkes Potenzial als assistives Werkzeug für skalierbare, erklärbare und frühzeitige Alzheimer-Erkennung, sondern bietet auch Hoffnung für zukünftige Anwendungen in diesem Bereich.
Aktuelle große Sprachmodelle glänzen bei breiten, allgemeinen Aufgaben, schneiden jedoch durchweg schlechter ab, wenn sie mit hochspezialisierten Domänen konfrontiert werden, die tiefgehende kulturelle, linguistische und fachliche Expertise erfordern. Insbesondere verkörpern traditionelle Medizinsysteme wie Ayurveda jahrhundertealtes, nuanciertes textuelles und klinisches Wissen, das Mainstream-LLMs nicht präzise interpretieren oder anwenden können. Wir stellen AyurParam-2.9B vor, ein domänenspezialisiertes, zweisprachiges Sprachmodell, das aus Param-1-2.9B mittels Feinabstimmung auf einen umfangreichen, fachkundig kuratierten Ayurveda-Datensatz entwickelt wurde. Dieser Datensatz umfasst klassische Texte und klinische Leitlinien. Der Datensatz von AyurParam integriert kontextbewusste, reasoning-basierte und auf objektive Antworten ausgerichtete Frage-Antwort-Paare sowohl auf Englisch als auch auf Hindi, wobei strenge Annotationsprotokolle für faktische Genauigkeit und instruktionale Klarheit angewendet wurden. Im Benchmark-Test auf BhashaBench-Ayur übertrifft AyurParam nicht nur alle quelloffenen, instruktions-feingestimmten Modelle seiner Größenklasse (1,5–3 Mrd. Parameter), sondern zeigt auch eine gleichwertige oder überlegene Leistung im Vergleich zu deutlich größeren Modellen. Die Ergebnisse mit AyurParam unterstreichen die Notwendigkeit einer authentischen Domänenadaption und hochwertigen Supervision, um zuverlässige, kulturell kongruente KI für spezialisiertes medizinisches Wissen bereitzustellen.
Text-to-Image (T2I) Diffusionsmodelle haben eine hohe Leistungsfähigkeit bei der semantischen Ausrichtung erreicht, kämpfen jedoch nach wie vor damit, die in den Eingabeaufforderungen angegebene korrekte Anzahl von Objekten zu generieren. Bestehende Ansätze integrierieren typischerweise zusätzliche Zähl-Netzwerke als externe Kritiker, um die Zählfähigkeit zu verbessern. Da diese Kritiker jedoch während der Generierung Gradientenführung bereitstellen müssen, sind sie auf regressionsbasierte Modelle beschränkt, die von Haus aus differenzierbar sind. Dadurch werden detektorbasierte Modelle mit überlegener Zählfähigkeit ausgeschlossen, deren zähl-durch-Aufzählung-Charakter nicht differenzierbar ist. Um diese Einschränkung zu überwinden, schlagen wir Detector-to-Differentiable (D2D) vor, einen neuartigen Rahmen, der nicht-differenzierbare Detektionsmodelle in differenzierbare Kritiker umwandelt und so ihre überlegene Zählfähigkeit zur Steuerung der Zahlen-generierung nutzbar macht. Konkret entwerfen wir maßgeschneiderte Aktivierungsfunktionen, um Detektor-Logits in weiche binäre Indikatoren umzuwandeln, die dann verwendet werden, um die Rausch-A-priori zur Inferenzzeit mit vortrainierten T2I-Modellen zu optimieren. Unsere umfangreichen Experimente mit SDXL-Turbo, SD-Turbo und Pixart-DMD über vier Benchmarks unterschiedlicher Komplexität (Niedrigdichte-, Hochdichte- und Multi-Objekt-Szenarien) zeigen konsistente und erhebliche Verbesserungen der Objektzählgenauigkeit (z.B. ein Anstieg von bis zu 13,7 % auf D2D-Small, einem Niedrigdichte-Benchmark mit 400 Prompts), bei minimaler Verschlechterung der Gesamtbildqualität und geringem Rechenmehraufwand.
Komplexes Schließen über tabellarischen Daten ist entscheidend für die Datenanalyse in der Praxis, doch große Sprachmodelle (LLMs) liefern bei komplexen Abfragen, verrauschten Daten und begrenzten numerischen Fähigkeiten oft unzureichende Ergebnisse. Um diese Probleme zu adressieren, schlagen wir \method vor, ein Framework bestehend aus: (1) einem Abfragezerleger, der komplexe Fragen aufschlüsselt, (2) einem Tabellenbereiniger, der verrauschte Tabellen bereinigt und filtert, und (3) einem Program-of-Thoughts (PoT)-basierten Reasoner, der ausführbaren Code generiert, um die endgültige Antwort aus der bereinigten Tabelle abzuleiten. Um eine verzerrte Evaluation zu vermeiden und Datenlecks zu minimieren, führen wir einen neuen Datensatz, CalTab151, ein, der speziell für komplexes numerisches Schließen über Tabellen entwickelt wurde. Experimentelle Ergebnisse zeigen, dass \method bestehende Methoden konsistent übertrifft und state-of-the-art (SOTA)-Leistung mit Genauigkeitssteigerungen von 8,79 %, 6,08 % bzw. 19,87 % auf TAT-QA, TableBench und \method erzielt. Darüber hinaus integriert sich unser Framework nahtlos in gängige LLMs und bietet so eine robuste Lösung für komplexes tabellarisches numerisches Schließen. Diese Ergebnisse unterstreichen die Wirksamkeit unseres Frameworks zur Verbesserung der LLM-Leistung bei komplexem tabellarischen numerischen Schließen. Daten und Code sind auf Anfrage erhältlich.
Das unüberwachte Lernen von Tiefe und Eigenbewegung, zwei grundlegenden 3D-Wahrnehmungsaufgaben, hat in den letzten Jahren bedeutende Fortschritte erzielt. Die meisten Methoden behandeln die Eigenbewegung jedoch als Nebenbedingung, indem sie entweder alle Bewegungstypen vermischen oder tiefenunabhängige Rotationsbewegungen in der Supervision ausschließen. Solche Ansätze schränken die Einbindung starker geometrischer Zwangsbedingungen ein und verringern so die Zuverlässigkeit und Robustheit unter verschiedenen Bedingungen. Diese Studie führt eine differenzierte Behandlung von Bewegungs-komponenten ein, die die geometrischen Regularitäten ihrer jeweiligen Starrkörperflüsse nutzt, um sowohl die Tiefen- als auch die Eigenbewegungsschätzung zu verbessern. Bei aufeinanderfolgenden Videobildern werden zunächst die optischen Achsen und Bildebenen der Quell- und Zielkameras durch die Netzwerkausgaben ausgerichtet. Optische Flüsse zwischen den Bildern werden durch diese Ausrichtungen transformiert, und Abweichungen werden quantifiziert, um geometrische Zwangsbedingungen gezielt auf jede Eigenbewegungskomponente anzuwenden und eine zielgerichtetere Verfeinerung zu ermöglichen. Diese Ausrichtungen formulieren den gemeinsamen Lernprozess weiter in koaxiale und koplanare Formen um, bei denen Tiefe und jede Translationskomponente durch geschlossene geometrische Beziehungen gegenseitig abgeleitet werden können, was komplementäre Zwangsbedingungen einführt, die die Tiefenrobustheit verbessern. DiMoDE, ein allgemeines Framework für gemeinsames Lernen von Tiefe und Eigenbewegung, das diese Entwürfe integriert, erreicht state-of-the-art Leistung auf mehreren öffentlichen Datensätzen und einem neu erhobenen vielfältigen Realwelt-Datensatz, insbesondere unter anspruchsvollen Bedingungen. Unser Quellcode wird nach der Veröffentlichung unter mias.group/DiMoDE öffentlich verfügbar sein.
Aktuelle Studien haben Direct Preference Optimization (DPO) als einen effizienten und belohnungsfreien Ansatz zur Verbesserung der Videoqualität identifiziert. Bisherige Methoden folgen jedoch weitgehend den Paradigmen aus dem Bildbereich und wurden hauptsächlich für kleinere Modelle (etwa 2 Mrd. Parameter) entwickelt, was ihre Fähigkeit einschränkt, die spezifischen Herausforderungen von Videoaufgaben zu bewältigen, wie etwa kostspielige Datenerstellung, instabiles Training und hohen Speicherverbrauch. Um diese Einschränkungen zu überwinden, führen wir ein GT-Pair ein, das automatisch hochwertige Präferenzpaare erstellt, indem echte Videos als Positive und modellgenerierte Videos als Negative verwendet werden, wodurch jegliche externe Annotation entfällt. Wir stellen weiterhin Reg-DPO vor, das den SFT-Verlust als Regularisierungsterm in das DPO-Ziel integriert, um die Trainingsstabilität und Erzeugungstreue zu verbessern. Durch die Kombination des FSDP-Frameworks mit mehreren Speicheroptimierungstechniken erreicht unser Ansatz zudem eine nahezu dreifach höhere Trainingskapazität als die alleinige Verwendung von FSDP. Umfangreiche Experimente zu sowohl I2V- als auch T2V-Aufgaben über mehrere Datensätze hinweg belegen, dass unsere Methode bestehende Ansätze konsequent übertrifft und eine überlegene Videogenerierungsqualität liefert.