papers.description
Wir stellen InternVL 3.5 vor, eine neue Familie von Open-Source-Multimodell-Modellen, die die Vielseitigkeit, die Fähigkeit zum logischen Schlussfolgern und die Effizienz der Inferenz entlang der InternVL-Serie erheblich vorantreibt. Eine zentrale Innovation ist das Cascade Reinforcement Learning (Cascade RL)-Framework, das die Schlussfolgerungsfähigkeit durch einen zweistufigen Prozess verbessert: Offline-RL für eine stabile Konvergenz und Online-RL für eine verfeinerte Ausrichtung. Diese grob-zu-fein Trainingsstrategie führt zu erheblichen Verbesserungen bei nachgelagerten Schlussfolgerungsaufgaben, z.B. MMMU und MathVista. Um die Effizienz zu optimieren, schlagen wir einen Visual Resolution Router (ViR) vor, der die Auflösung visueller Tokens dynamisch anpasst, ohne die Leistung zu beeinträchtigen. In Kombination mit ViR trennt unsere Decoupled Vision-Language Deployment (DvD)-Strategie den Vision-Encoder und das Sprachmodell auf verschiedenen GPUs, wodurch die Rechenlast effektiv ausbalanciert wird. Diese Beiträge ermöglichen es InternVL 3.5 insgesamt, eine Steigerung von bis zu +16,0 % in der allgemeinen Schlussfolgerungsleistung und eine 4,05-fache Beschleunigung der Inferenz im Vergleich zu seinem Vorgänger, d.h. InternVL 3, zu erreichen. Darüber hinaus unterstützt InternVL 3.5 neuartige Fähigkeiten wie GUI-Interaktion und verkörperte Agenten. Insbesondere erreicht unser größtes Modell, d.h. InternVL 3.5-241B-A28B, state-of-the-art Ergebnisse unter Open-Source-MLLMs in allgemeinen multimodalen, schlussfolgernden, textbasierten und agentenbasierten Aufgaben – und verringert damit die Leistungslücke zu führenden kommerziellen Modellen wie GPT-5. Alle Modelle und der Code werden öffentlich zugänglich gemacht.
Trotz der vielversprechenden Fortschritte aktueller autoregressiver Modelle in der Text-zu-Bild (T2I)-Generierung bleibt ihre Fähigkeit, mehrfach attributierte und mehrdeutige Eingabeaufforderungen zu verarbeiten, begrenzt. Um diese Einschränkungen zu überwinden, haben bestehende Arbeiten die Chain-of-Thought (CoT)-Methode eingesetzt, um eine stufenbewusste visuelle Synthese zu ermöglichen, und Verstärkungslernen (Reinforcement Learning, RL) verwendet, um die Fähigkeiten zur logischen Schlussfolgerung zu verbessern. Die meisten Modelle liefern jedoch Belohnungssignale erst am Ende des Generierungsprozesses. Diese monolithische, ausschließlich finale Führung erschwert die Identifizierung derjenigen Stufen, die positiv zum Endergebnis beitragen, und kann zu suboptimalen Strategien führen. Um dieses Problem zu lösen, schlagen wir ein Paradigma der Visuellen Kette der Führung (Visual-Chain of Guidance, Visual-CoG) vor, das aus drei Stufen besteht: semantische Schlussfolgerung, Prozessverfeinerung und Ergebnisbewertung, wobei stufenbewusste Belohnungen eine unmittelbare Führung während des gesamten Bildgenerierungsprozesses bieten. Darüber hinaus entwickeln wir einen Benchmark für visuelle Kognition, VisCog-Bench, der vier Teilaufgaben umfasst, um die Effektivität der semantischen Schlussfolgerung zu bewerten. Umfassende Bewertungen auf GenEval, T2I-CompBench und dem vorgeschlagenen VisCog-Bench zeigen Verbesserungen von 15 %, 5 % bzw. 19 %, was die überlegene Leistung des vorgeschlagenen Visual-CoG demonstriert. Wir werden alle Ressourcen in Kürze veröffentlichen.
Text-to-3D-Generierungsansätze haben durch die Nutzung vortrainierter 2D-Diffusionsprioren erhebliche Fortschritte gemacht und liefern qualitativ hochwertige und 3D-konsistente Ergebnisse. Allerdings scheitern sie oft daran, out-of-domain (OOD)- oder seltene Konzepte zu erzeugen, was zu inkonsistenten oder ungenauen Ergebnissen führt. Daher schlagen wir MV-RAG vor, eine neuartige Text-to-3D-Pipeline, die zunächst relevante 2D-Bilder aus einer großen, in freier Wildbahn gesammelten 2D-Datenbank abruft und dann ein Multiview-Diffusionsmodell auf diesen Bildern konditioniert, um konsistente und präzise Multiview-Ergebnisse zu synthetisieren. Das Training eines solchen abrufkonditionierten Modells wird durch eine neuartige Hybridstrategie erreicht, die strukturierte Multiview-Daten und diverse 2D-Bildsammlungen verbindet. Dies umfasst das Training an Multiview-Daten unter Verwendung von augmentierten Konditionierungsansichten, die die Abrufvarianz für die ansichtsspezifische Rekonstruktion simulieren, sowie das Training an Sätzen von abgerufenen realen 2D-Bildern unter Verwendung eines speziellen „held-out view prediction“-Ziels: Das Modell sagt die ausgeblendete Ansicht aus den anderen Ansichten voraus, um 3D-Konsistenz aus 2D-Daten abzuleiten. Um eine rigorose OOD-Evaluierung zu ermöglichen, führen wir eine neue Sammlung herausfordernder OOD-Prompts ein. Experimente im Vergleich zu state-of-the-art Text-to-3D-, Bild-to-3D- und Personalisierungs-Baselines zeigen, dass unser Ansatz die 3D-Konsistenz, den Fotorealismus und die Texttreue für OOD/seltene Konzepte signifikant verbessert, während er eine wettbewerbsfähige Leistung auf Standard-Benchmarks beibehält.
Wir stellen T2I-ReasonBench vor, einen Benchmark zur Bewertung der Fähigkeiten von Text-zu-Bild (T2I)-Modellen im Bereich des logischen Denkens. Er besteht aus vier Dimensionen: Idiom-Interpretation, Textbasierte Bildgestaltung, Entitätsbezogenes Denken und Wissenschaftliches Denken. Wir schlagen ein zweistufiges Evaluationsprotokoll vor, um die Genauigkeit des logischen Denkens und die Bildqualität zu bewerten. Wir testen verschiedene T2I-Generierungsmodelle und bieten eine umfassende Analyse ihrer Leistungen.
Vision-Language Models (VLMs) zeigen beeindruckende Leistungen beim Verständnis visueller Inhalte durch Sprachanweisungen, indem sie visuelle Eingaben in Vision-Tokens umwandeln. Allerdings führt Redundanz in Vision-Tokens zu einer verringerten Inferenzeffizienz von VLMs. Während viele Algorithmen vorgeschlagen wurden, um die Anzahl der Vision-Tokens zu reduzieren, nutzen die meisten nur unimodale Informationen (d.h. Vision/Text) für das Pruning und ignorieren die inhärente multimodale Eigenschaft von Vision-Language-Aufgaben. Darüber hinaus fehlt ein generisches Kriterium, das auf verschiedene Modalitäten angewendet werden kann. Um diese Einschränkung zu überwinden, schlagen wir in dieser Arbeit vor, sowohl Vision- als auch Text-Tokens zu nutzen, um informative Vision-Tokens nach dem Kriterium der Abdeckung auszuwählen. Wir formulieren zunächst das Problem der Teilmengenauswahl als ein Maximum-Coverage-Problem. Anschließend wird eine Teilmenge von Vision-Tokens optimiert, um gleichzeitig die Text-Tokens und die ursprüngliche Menge der Vision-Tokens abzudecken. Schließlich kann ein VLM-Agent eingesetzt werden, um die Qualität der Text-Tokens weiter zu verbessern, die das Vision-Pruning leiten. Die vorgeschlagene Methode MMTok wird umfassend auf Benchmark-Datensätzen mit verschiedenen VLMs evaluiert. Der Vergleich zeigt, dass Vision- und Text-Informationen komplementär sind und die Kombination multimodaler Informationen die unimodale Baseline deutlich übertreffen kann. Darüber hinaus erreicht unsere Methode unter dem Maximum-Coverage-Kriterium auf dem POPE-Datensatz eine 1,87-fache Beschleunigung bei gleichzeitiger Beibehaltung von 98,7 % der ursprünglichen Leistung auf LLaVA-NeXT-13B. Mit nur vier Vision-Tokens behält sie außerdem 87,7 % der ursprünglichen Leistung auf LLaVA-1.5-7B bei. Diese Ergebnisse unterstreichen die Wirksamkeit der Abdeckung bei der Token-Auswahl.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben das Potenzial von Reinforcement Learning (RL) zur Förderung von Denkfähigkeiten hervorgehoben. Trotz der ermutigenden Ergebnisse besteht ein grundlegendes Dilemma darin, dass die Verbesserung von RL auf dem Lernen aus hochwertigen Beispielen beruht, die Exploration solcher Beispiele jedoch durch die inhärenten Grenzen von LLMs begrenzt bleibt. Dies schafft effektiv einen unerwünschten Kreislauf, in dem das, was nicht erkundet werden kann, auch nicht gelernt werden kann. In dieser Arbeit schlagen wir Rubric-Scaffolded Reinforcement Learning (RuscaRL) vor, ein neuartiges instruktionales Gerüst, das entwickelt wurde, um den Engpass bei der Exploration für allgemeines LLM-Denken zu überwinden. Konkret führt RuscaRL Checklisten-artige Bewertungsraster als (1) explizites Gerüst für die Exploration während der Rollout-Generierung ein, wobei verschiedene Bewertungsraster als externe Anleitung innerhalb von Aufgabenanweisungen bereitgestellt werden, um vielfältige hochwertige Antworten zu steuern. Diese Anleitung wird im Laufe der Zeit schrittweise reduziert, um das Modell dazu zu ermutigen, die zugrunde liegenden Denkmuster zu internalisieren; (2) überprüfbare Belohnungen für die Ausnutzung während des Modelltrainings, bei denen wir robuste LLM-as-a-Judge-Bewertungen unter Verwendung von Bewertungsrastern als Referenzen erhalten können, was effektives RL bei allgemeinen Denkaufgaben ermöglicht. Umfangreiche Experimente demonstrieren die Überlegenheit des vorgeschlagenen RuscaRL über verschiedene Benchmarks hinweg und erweitern effektiv die Denkgrenzen unter der Best-of-N-Bewertung. Bemerkenswerterweise steigert RuscaRL Qwen-2.5-7B-Instruct von 23,6 auf 50,3 auf HealthBench-500 und übertrifft damit GPT-4.1. Darüber hinaus erreicht unsere feinabgestimmte Variante auf Qwen3-30B-A3B-Instruct 61,1 auf HealthBench-500 und übertrifft damit führende LLMs, einschließlich OpenAI-o3.
Das logische Schließen ist eine Kernfähigkeit großer Sprachmodelle, doch das Verständnis darüber, wie sie mehrschrittiges logisches Denken erlernen und ausführen, bleibt ein ungelöstes Problem. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zum mehrschrittigen logischen Denken innerhalb eines zellulären Automaten-Frameworks beeinflussen. Durch das Training an Zustandssequenzen, die mit zufälligen Booleschen Funktionen für zufällige Anfangsbedingungen generiert wurden, um Auswendiglernen auszuschließen, zeigen wir, dass die meisten neuronalen Architekturen lernen, die zugrunde liegenden Regeln zu abstrahieren. Während Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung deutlich, wenn mehrschrittiges logisches Denken erforderlich ist. Wir bestätigen, dass die Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Wir zeigen, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicher und Skalierung der Rechenleistung zur Testzeit die Fähigkeiten zum logischen Denken erheblich verbessert.
Wir untersuchen, warum Tool-Integrated Reasoning (TIR) Large Language Models (LLMs) leistungsfähiger macht. Obwohl LLMs, die mit Werkzeugen wie Python-Code-Interpretern integriert sind, vielversprechend sind, fehlte bisher eine fundierte Theorie, die erklärt, warum dieses Paradigma effektiv ist. Diese Arbeit liefert den ersten formalen Beweis, dass TIR die Fähigkeiten eines LLMs grundlegend erweitert. Wir zeigen, dass Werkzeuge eine strikte Erweiterung des empirischen und praktisch umsetzbaren Unterstützungsbereichs des Modells ermöglichen, wodurch die Fähigkeitsgrenze von reinen Textmodellen durchbrochen wird, indem Problemlösungsstrategien freigesetzt werden, die sonst unmöglich oder unhandlich umständlich wären. Um das Modellverhalten zu steuern, ohne die Trainingsstabilität und Leistung zu beeinträchtigen, führen wir auch Advantage Shaping Policy Optimization (ASPO) ein, einen neuartigen Algorithmus, der die Advantage-Funktion direkt modifiziert, um das Policy-Verhalten zu lenken. Wir führen umfassende Experimente auf anspruchsvollen mathematischen Benchmarks durch, wobei wir einen Python-Interpreter als externes Werkzeug nutzen. Unsere Ergebnisse zeigen, dass das TIR-Modell seinen reinen Text-Gegenpart auf der pass@k-Metrik deutlich übertrifft. Entscheidend ist, dass dieser Vorteil nicht auf rechenintensive Probleme beschränkt ist, sondern sich auch auf solche erstreckt, die erhebliche abstrakte Einsicht erfordern. Wir identifizieren weiterhin die entstehenden kognitiven Muster, die illustrieren, wie Modelle lernen, mit Werkzeugen zu denken. Schließlich berichten wir über ein verbessertes Werkzeugnutzungsverhalten mit frühem Code-Aufruf und deutlich interaktiveren Wechseln mit ASPO. Insgesamt liefert unsere Arbeit die erste fundierte Erklärung für den Erfolg von TIR und verlagert den Fokus von der bloßen Tatsache, dass Werkzeuge funktionieren, darauf, warum und wie sie leistungsfähigeres Denken ermöglichen.
Wir präsentieren Hermes 4, eine Familie von hybriden Reasoning-Modellen, die strukturiertes, mehrstufiges Reasoning mit breiter Befolgung von Anweisungen kombinieren. Wir beschreiben die Herausforderungen, die während der Datenkuratierung, Synthese, des Trainings und der Evaluierung auftraten, und skizzieren die Lösungen, die eingesetzt wurden, um diese Herausforderungen in großem Maßstab zu bewältigen. Wir evaluieren umfassend in den Bereichen mathematisches Reasoning, Programmieren, Wissen, Verständnis und Alignment-Benchmarks und berichten sowohl über quantitative Leistung als auch qualitative Verhaltensanalysen. Um die offene Forschung zu unterstützen, werden alle Modellgewichte öffentlich unter https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728 veröffentlicht.
Multi-Agent-Systeme, die auf großen Sprachmodellen (LLMs) basieren, haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer zusammengesetzter Aufgaben gezeigt. In dieser Arbeit wenden wir dieses Paradigma auf das Problem der Postererstellung aus wissenschaftlichen Artikeln an, einen praktischen, aber zeitaufwendigen Prozess, mit dem Forscher bei der Vorbereitung auf Konferenzen konfrontiert sind. Während neuere Ansätze versucht haben, diese Aufgabe zu automatisieren, vernachlässigen die meisten grundlegende Design- und ästhetische Prinzipien, was zu Postern führt, die erhebliche manuelle Nachbearbeitung erfordern. Um diese Designbeschränkungen zu überwinden, schlagen wir PosterGen vor, ein Multi-Agenten-Framework, das den Arbeitsablauf professioneller Posterdesigner nachahmt. Es besteht aus vier kooperierenden spezialisierten Agenten: (1) Parser- und Curator-Agenten extrahieren Inhalte aus dem Artikel und organisieren das Storyboard; (2) der Layout-Agent ordnet die Inhalte in ein kohärentes räumliches Layout ein; (3) Stylist-Agenten wenden visuelle Designelemente wie Farbe und Typografie an; und (4) der Renderer erstellt das finale Poster. Gemeinsam erzeugen diese Agenten Poster, die sowohl semantisch fundiert als auch visuell ansprechend sind. Um die Designqualität zu bewerten, führen wir ein auf einem Vision-Language-Modell (VLM) basierendes Bewertungsschema ein, das Layoutbalance, Lesbarkeit und ästhetische Kohärenz misst. Experimentelle Ergebnisse zeigen, dass PosterGen inhaltlich gleichwertig ist und bestehende Methoden im visuellen Design deutlich übertrifft, wodurch Poster erzeugt werden, die mit minimaler menschlicher Nachbearbeitung präsentationsreif sind.
Benchmarks prägen den Fortschritt in der KI-Forschung. Ein nützlicher Benchmark sollte sowohl schwierig als auch realistisch sein: Fragen sollten Spitzenmodelle herausfordern und gleichzeitig die reale Anwendung widerspiegeln. Dennoch stehen aktuelle Paradigmen vor einem Spannungsfeld zwischen Schwierigkeit und Realismus: Prüfungsartige Benchmarks werden oft künstlich schwierig gestaltet, haben jedoch einen begrenzten praktischen Nutzen, während Benchmarks, die auf realen Benutzerinteraktionen basieren, häufig zu einfachen, hochfrequenten Problemen tendieren. In dieser Arbeit untersuchen wir ein radikal anderes Paradigma: die Bewertung von Modellen anhand ungelöster Fragen. Anstatt eines statischen Benchmarks, der einmalig bewertet wird, kuratieren wir ungelöste Fragen und bewerten Modelle asynchron über die Zeit hinweg mit validatorenunterstützter Vorauswahl und Gemeinschaftsverifizierung. Wir stellen UQ vor, eine Testumgebung mit 500 anspruchsvollen, vielfältigen Fragen, die von Stack Exchange stammen und Themen von Informatiktheorie und Mathematik bis hin zu Science-Fiction und Geschichte abdecken, wobei Fähigkeiten wie logisches Denken, Faktenwissen und Recherche untersucht werden. UQ ist von Natur aus schwierig und realistisch: ungelöste Fragen sind oft komplex und entstehen natürlich, wenn Menschen nach Antworten suchen, sodass ihre Lösung einen direkten praktischen Nutzen bietet. Unsere Beiträge sind dreifach: (1) das UQ-Dataset und seine Erfassungspipeline, die regelbasierte Filter, LLM-Bewerter und menschliche Überprüfung kombiniert, um die Qualität der Fragen sicherzustellen (z. B. klar definiert und schwierig); (2) UQ-Validatoren, zusammengesetzte Validierungsstrategien, die die Lücke zwischen Generator und Validator nutzen, um Bewertungssignale zu liefern und Kandidatenlösungen für die menschliche Überprüfung vorzusortieren; und (3) die UQ-Plattform, eine offene Plattform, auf der Experten gemeinsam Fragen und Lösungen verifizieren. Das beste Modell besteht die UQ-Validierung bei nur 15 % der Fragen, und die vorläufige menschliche Verifizierung hat bereits korrekte Antworten unter den bestandenen identifiziert. UQ weist einen Weg zur Bewertung von Spitzenmodellen anhand realer, offener Herausforderungen, bei denen Erfolg die Grenzen des menschlichen Wissens erweitert. Wir veröffentlichen UQ unter https://uq.stanford.edu.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (VLMs) haben sich hauptsächlich auf Englisch konzentriert, wobei andere Sprachen nur begrenzt Beachtung fanden. Um diese Lücke zu schließen, stellen wir MEENA (auch bekannt als PersianMMMU) vor, den ersten Datensatz, der entwickelt wurde, um persische VLMs in wissenschaftlichen, logischen und auf menschlichem Verständnis basierenden Aufgaben zu evaluieren. Unser Datensatz umfasst etwa 7.500 persische und 3.000 englische Fragen, die ein breites Spektrum an Themen abdecken, darunter Logik, Mathematik, Physik, Diagramme, Charts sowie persische Kunst und Literatur. Zu den Schlüsselmerkmalen von MEENA gehören: (1) eine vielfältige Themenabdeckung über verschiedene Bildungsstufen hinweg, von der Grundschule bis zur Oberstufe, (2) umfangreiche Metadaten, einschließlich Schwierigkeitsgrade und beschreibender Antworten, (3) originale persische Daten, die kulturelle Nuancen bewahren, (4) eine zweisprachige Struktur zur Bewertung der sprachübergreifenden Leistung und (5) eine Reihe von diversen Experimenten, die verschiedene Fähigkeiten bewerten, darunter die Gesamtleistung, die Fähigkeit des Modells, Bilder zu berücksichtigen, und seine Tendenz, Halluzinationen zu erzeugen. Wir hoffen, dass dieser Benchmark dazu beiträgt, die Fähigkeiten von VLMs über Englisch hinaus zu erweitern.
Halbstrukturierte Tabellen, die in realen Anwendungen weit verbreitet sind (z. B. Finanzberichte, medizinische Aufzeichnungen, Transaktionsaufträge), weisen oft flexible und komplexe Layouts auf (z. B. hierarchische Überschriften und zusammengeführte Zellen). Diese Tabellen sind in der Regel darauf angewiesen, dass menschliche Analysten die Tabellenlayouts interpretieren und relevante Fragen in natürlicher Sprache beantworten, was kostspielig und ineffizient ist. Um diesen Prozess zu automatisieren, stehen bestehende Methoden vor erheblichen Herausforderungen. Erstens erfordern Methoden wie NL2SQL die Umwandlung halbstrukturierter Tabellen in strukturierte Tabellen, was oft zu erheblichen Informationsverlusten führt. Zweitens haben Methoden wie NL2Code und multimodales LLM-QA Schwierigkeiten, die komplexen Layouts halbstrukturierter Tabellen zu verstehen, und können entsprechende Fragen nicht präzise beantworten. Daher schlagen wir ST-Raptor vor, ein baumbasiertes Framework für die Beantwortung von Fragen zu halbstrukturierten Tabellen unter Verwendung großer Sprachmodelle. Zunächst führen wir den Hierarchischen Orthogonalen Baum (HO-Tree) ein, ein Strukturmodell, das komplexe Layouts halbstrukturierter Tabellen erfasst, sowie einen effektiven Algorithmus zur Konstruktion des Baums. Zweitens definieren wir eine Reihe grundlegender Baumoperationen, um LLMs bei der Ausführung gängiger QA-Aufgaben zu leiten. Bei einer Benutzerfrage zerlegt ST-Raptor diese in einfachere Teilfragen, generiert entsprechende Baumoperationspipelines und führt eine Operation-Tabellen-Ausrichtung für eine präzise Pipeline-Ausführung durch. Drittens integrieren wir einen zweistufigen Verifizierungsmechanismus: Die Vorwärtsvalidierung überprüft die Korrektheit der Ausführungsschritte, während die Rückwärtsvalidierung die Zuverlässigkeit der Antworten bewertet, indem sie Abfragen aus den vorhergesagten Antworten rekonstruiert. Um die Leistung zu bewerten, stellen wir SSTQA vor, einen Datensatz mit 764 Fragen zu 102 realen halbstrukturierten Tabellen. Experimente zeigen, dass ST-Raptor neun Baseline-Methoden um bis zu 20 % in der Antwortgenauigkeit übertrifft. Der Code ist verfügbar unter https://github.com/weAIDB/ST-Raptor.
Die Oberflächenrekonstruktion wurde in der Computer Vision und Grafik umfassend untersucht. Allerdings haben bestehende Ansätze zur Oberflächenrekonstruktion Schwierigkeiten, eine präzise Szenengeometrie wiederherzustellen, wenn die Eingabeansichten extrem spärlich sind. Um dieses Problem zu lösen, schlagen wir MeshSplat vor, ein generalisierbares Framework für die Oberflächenrekonstruktion mit spärlichen Ansichten mittels Gaussian Splatting. Unser zentraler Ansatz besteht darin, 2DGS als Brücke zu nutzen, die die Synthese neuer Ansichten mit gelernten geometrischen Priors verbindet und diese Priors dann zur Oberflächenrekonstruktion überträgt. Konkret integrieren wir ein Feedforward-Netzwerk, um pixelgenaue 2DGS pro Ansicht vorherzusagen, was dem Netzwerk ermöglicht, neue Ansichtsbilder zu synthetisieren und somit die Notwendigkeit einer direkten 3D-Ground-Truth-Supervision entfällt. Um die Genauigkeit der Vorhersage von Position und Ausrichtung der 2DGS zu verbessern, schlagen wir einen Weighted Chamfer Distance Loss vor, um die Tiefenkarten zu regularisieren, insbesondere in überlappenden Bereichen der Eingabeansichten, sowie ein Netzwerk zur Normalenvorhersage, um die Ausrichtung der 2DGS mit den Normalenvektoren abzugleichen, die von einem monokularen Normalenschätzer vorhergesagt werden. Umfangreiche Experimente bestätigen die Wirksamkeit unserer vorgeschlagenen Verbesserungen und zeigen, dass unsere Methode in generalisierbaren Aufgaben zur Rekonstruktion von Netzen aus spärlichen Ansichten state-of-the-art Leistungen erzielt. Projektseite: https://hanzhichang.github.io/meshsplat_web
Kompositionales visuelles Denken hat sich als eine zentrale Forschungsfront in der multimodalen KI etabliert, mit dem Ziel, Maschinen die menschenähnliche Fähigkeit zu verleihen, visuelle Szenen zu zerlegen, Zwischenkonzepte zu verankern und mehrstufige logische Schlussfolgerungen durchzuführen. Während frühere Übersichtsarbeiten sich auf monolithische Vision-Sprache-Modelle oder allgemeines multimodales Denken konzentrierten, fehlt bislang eine gezielte Synthese der sich rasch ausweitenden Literatur zum kompositionalen visuellen Denken. Wir schließen diese Lücke mit einer umfassenden Übersicht, die den Zeitraum von 2023 bis 2025 abdeckt und systematisch über 260 Publikationen aus führenden Konferenzen (CVPR, ICCV, NeurIPS, ICML, ACL usw.) untersucht. Wir formalisieren zunächst Kernbegriffe und erläutern, warum kompositionale Ansätze Vorteile in Bezug auf kognitive Ausrichtung, semantische Treue, Robustheit, Interpretierbarkeit und Dateneffizienz bieten. Anschließend zeichnen wir einen Paradigmenwechsel in fünf Phasen nach: von promptgestützten sprachzentrierten Pipelines über toolgestützte LLMs und toolgestützte VLMs bis hin zu kürzlich entwickelten Chain-of-Thought-Reasoning-Ansätzen und vereinheitlichten agentenbasierten VLMs, wobei wir deren Architekturdesigns, Stärken und Grenzen hervorheben. Daraufhin katalogisieren wir über 60 Benchmarks und entsprechende Metriken, die kompositionales visuelles Denken in Dimensionen wie Verankerungsgenauigkeit, Chain-of-Thought-Treue und hochauflösende Wahrnehmung untersuchen. Basierend auf diesen Analysen destillieren wir zentrale Erkenntnisse, identifizieren offene Herausforderungen (z. B. Grenzen von LLM-basiertem Denken, Halluzinationen, eine Tendenz zu deduktivem Denken, skalierbare Supervision, Tool-Integration und Benchmark-Beschränkungen) und skizzieren zukünftige Richtungen, darunter die Integration von Weltmodellen, menschlich-KI-kollaboratives Denken und umfassendere Evaluationsprotokolle. Indem wir eine einheitliche Taxonomie, einen historischen Fahrplan und einen kritischen Ausblick bieten, zielt diese Übersicht darauf ab, als grundlegende Referenz zu dienen und die nächste Generation der Forschung zum kompositionalen visuellen Denken zu inspirieren.
Sprachtokenizer dienen als grundlegende Komponenten für Sprachmodelle, doch aktuelle Designs weisen mehrere Einschränkungen auf, darunter: 1) Abhängigkeit von mehrschichtigen residualen Vektorquantisierungsstrukturen oder hohen Bildraten, 2) Abhängigkeit von zusätzlichen vortrainierten Modellen zur semantischen Destillation und 3) Anforderungen an komplexe zweistufige Trainingsprozesse. In dieser Arbeit stellen wir den Text-aware Diffusion Transformer Speech Codec (TaDiCodec) vor, einen neuartigen Ansatz, der entwickelt wurde, um diese Herausforderungen zu bewältigen. TaDiCodec verwendet eine End-to-End-Optimierung für Quantisierung und Rekonstruktion durch einen Diffusions-Autoencoder, während Textführung in den Diffusions-Decoder integriert wird, um die Rekonstruktionsqualität zu verbessern und eine optimale Kompression zu erreichen. TaDiCodec erreicht eine extrem niedrige Bildrate von 6,25 Hz und eine entsprechende Bitrate von 0,0875 kbps mit einem einlagigen Codebuch für 24 kHz Sprache, während gleichzeitig eine überlegene Leistung bei wichtigen Sprachgenerationsbewertungsmetriken wie der Wortfehlerrate (WER), der Sprecherähnlichkeit (SIM) und der Sprachqualität (UTMOS) aufrechterhalten wird. Bemerkenswert ist, dass TaDiCodec ein einstufiges, End-to-End-Trainingsparadigma verwendet und den Bedarf an zusätzlichen vortrainierten Modellen überflüssig macht. Wir validieren auch die Kompatibilität von TaDiCodec in sprachmodellbasiertem Zero-Shot-Text-to-Speech sowohl mit autoregressiver Modellierung als auch mit maskierter generativer Modellierung, was seine Effektivität und Effizienz für die Sprachmodellierung sowie eine signifikant kleine Rekonstruktions-Generationslücke demonstriert. Wir werden unseren Code und unsere Modellcheckpoints open source zur Verfügung stellen. Audiobeispiele sind unter https://tadicodec.github.io/ verfügbar. Wir veröffentlichen den Code und die Modellcheckpoints unter https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Visuell gesteuertes Bildbearbeitung, bei der Bearbeitungen sowohl auf visuellen Hinweisen als auch auf textuellen Aufforderungen basieren, hat sich als ein leistungsstarkes Paradigma für fein abgestimmte, kontrollierbare Inhaltserstellung etabliert. Obwohl aktuelle generative Modelle bemerkenswerte Fähigkeiten gezeigt haben, bleiben bestehende Bewertungen einfach und unzureichend repräsentativ für die Herausforderungen der realen Bearbeitungspraxis. Wir präsentieren SpotEdit, einen umfassenden Benchmark, der darauf abzielt, visuell gesteuerte Bildbearbeitungsmethoden systematisch über verschiedene Diffusions-, autoregressive und hybride generative Modelle hinweg zu bewerten und erhebliche Leistungsunterschiede aufzudecken. Um eine kritische, jedoch bisher wenig erforschte Herausforderung zu adressieren, beinhaltet unser Benchmark eine spezielle Komponente zur Halluzination, die aufzeigt, wie führende Modelle wie GPT-4o oft die Existenz eines visuellen Hinweises halluzinieren und die Bearbeitungsaufgabe fälschlicherweise durchführen. Unser Code und Benchmark sind öffentlich unter https://github.com/SaraGhazanfari/SpotEdit verfügbar.
Die Bewertung von Systemen zur natürlichen Sprachgenerierung (Natural Language Generation, NLG) bleibt eine zentrale Herausforderung der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), die durch den Aufstieg großer Sprachmodelle (Large Language Models, LLMs), die als allgemeine Werkzeuge konzipiert sind, weiter verkompliziert wird. In jüngster Zeit haben sich große Sprachmodelle als Bewerter (Large Language Models as Judges, LLJs) als vielversprechende Alternative zu traditionellen Metriken etabliert, doch ihre Validität bleibt unzureichend erforscht. Dieses Positionspapier argumentiert, dass die derzeitige Begeisterung für LLJs möglicherweise verfrüht ist, da ihre Einführung einer rigorosen Überprüfung ihrer Zuverlässigkeit und Validität als Bewertungswerkzeuge vorauseilt. Unter Bezugnahme auf die Messtheorie aus den Sozialwissenschaften identifizieren und bewerten wir kritisch vier Kernannahmen, die der Verwendung von LLJs zugrunde liegen: ihre Fähigkeit, als Stellvertreter für menschliche Urteile zu fungieren, ihre Kompetenzen als Bewerter, ihre Skalierbarkeit und ihre Kosteneffizienz. Wir untersuchen, wie jede dieser Annahmen durch die inhärenten Grenzen von LLMs, LLJs oder aktuellen Praktiken in der NLG-Bewertung infrage gestellt werden könnte. Um unsere Analyse zu untermauern, beleuchten wir drei Anwendungsbereiche von LLJs: Textzusammenfassung, Datenannotation und Sicherheitsausrichtung. Abschließend betonen wir die Notwendigkeit verantwortungsvollerer Bewertungspraktiken bei der Evaluierung von LLJs, um sicherzustellen, dass ihre wachsende Rolle im Feld den Fortschritt in der NLG unterstützt und nicht untergräbt.
Die Fähigkeit, Texte auf verschiedenen Komplexitätsstufen zu paraphrasieren, ist entscheidend für die Erstellung zugänglicher Texte, die auf unterschiedliche Lesergruppen abgestimmt werden können. Daher stellen wir German4All vor, den ersten umfangreichen deutschen Datensatz mit ausgerichteten, lesbarkeitskontrollierten Paraphrasen auf Absatzebene. Der Datensatz umfasst fünf Lesbarkeitsstufen und besteht aus über 25.000 Beispielen. Er wird automatisch mit GPT-4 synthetisiert und sowohl durch menschliche als auch durch LLM-basierte Bewertungen rigoros evaluiert. Mit German4All trainieren wir ein quelloffenes, lesbarkeitskontrolliertes Paraphrasierungsmodell, das Spitzenleistungen in der deutschen Textvereinfachung erzielt und somit feinere und leserspezifische Anpassungen ermöglicht. Sowohl der Datensatz als auch das Modell werden als Open Source veröffentlicht, um weitere Forschung im Bereich der mehrstufigen Paraphrasierung zu fördern.
Diese Arbeit untersucht die Grenzen der Normalisierung in Aufmerksamkeitsmechanismen. Wir beginnen mit einem theoretischen Rahmen, der die Identifikation der selektiven Fähigkeit des Modells und der geometrischen Trennung bei der Token-Auswahl ermöglicht. Unsere Analyse umfasst explizite Grenzen für Abstände und Trennungskriterien für Token-Vektoren unter Softmax-Skalierung. Durch Experimente mit dem vortrainierten GPT-2-Modell validieren wir unsere theoretischen Ergebnisse empirisch und analysieren Schlüsselverhaltensweisen des Aufmerksamkeitsmechanismus. Insbesondere zeigen wir, dass mit zunehmender Anzahl ausgewählter Token die Fähigkeit des Modells, informative Token zu unterscheiden, abnimmt und oft zu einem einheitlichen Auswahlmuster konvergiert. Wir zeigen auch, dass die Gradientenempfindlichkeit unter Softmax-Normalisierung Herausforderungen während des Trainings darstellt, insbesondere bei niedrigen Temperatureinstellungen. Diese Erkenntnisse erweitern das aktuelle Verständnis von Softmax-basierten Aufmerksamkeitsmechanismen und unterstreichen die Notwendigkeit robusterer Normalisierungs- und Auswahlstrategien in zukünftigen Aufmerksamkeitsarchitekturen.
Die Echokardiographie spielt eine zentrale Rolle in der kardialen Bildgebung, da sie dynamische Ansichten des Herzens bietet, die für die Diagnose und Überwachung unerlässlich sind. Die Bildqualität kann jedoch erheblich durch Dunst beeinträchtigt werden, der durch Mehrfachreflexionen entsteht, insbesondere bei schwierig zu untersuchenden Patienten. In dieser Arbeit schlagen wir einen semantikgesteuerten, diffusionsbasierten Entdunstungsalgorithmus vor, der für die MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025) entwickelt wurde. Unser Verfahren integriert ein pixelweises Rauschmodell, das aus der semantischen Segmentierung von dunstigen Eingaben abgeleitet wird, in ein Diffusions-Posterior-Sampling-Framework, das durch ein generatives Prior-Modell geleitet wird, das auf sauberen Ultraschalldaten trainiert wurde. Die quantitative Auswertung auf dem Challenge-Datensatz zeigt eine starke Leistung in Bezug auf Kontrast- und Treue-Metriken. Der Code für den eingereichten Algorithmus ist unter https://github.com/tristan-deep/semantic-diffusion-echo-dehazing verfügbar.
Fotorealismus ist ein wichtiger Aspekt moderner Videospiele, da er das Spielerlebnis prägen und gleichzeitig die Immersion, die narrative Bindung und die visuelle Qualität beeinflussen kann. Obwohl jüngste Durchbrüche in der Hardwaretechnologie zusammen mit modernsten Rendering-Technologien den visuellen Realismus von Videospielen erheblich verbessert haben, bleibt die Erzielung von echtem Fotorealismus in dynamischen Umgebungen bei Echtzeit-Bildraten aufgrund des Kompromisses zwischen visueller Qualität und Leistung eine große Herausforderung. In diesem kurzen Beitrag stellen wir einen neuartigen Ansatz zur Steigerung des Fotorealismus gerenderter Spielbilder mithilfe von generativen adversen Netzwerken vor. Zu diesem Zweck schlagen wir das Framework „Real-time Photorealism Enhancement in Games via a dual-stage gEnerative Network“ (REGEN) vor, das ein robustes ungepaartes Bild-zu-Bild-Übersetzungsmodell verwendet, um semantisch konsistente fotorealistische Bilder zu erzeugen, wodurch das Problem in eine einfachere gepaarte Bild-zu-Bild-Übersetzungsaufgabe transformiert wird. Dies ermöglicht das Training mit einer leichtgewichtigen Methode, die Echtzeit-Inferenzzeiten erreichen kann, ohne die visuelle Qualität zu beeinträchtigen. Wir demonstrieren die Wirksamkeit unseres Frameworks anhand von Grand Theft Auto V und zeigen, dass der Ansatz visuelle Ergebnisse erzielt, die mit denen der robusten ungepaarten Im2Im-Methode vergleichbar sind, während die Inferenzgeschwindigkeit um das 32,14-fache verbessert wird. Unsere Ergebnisse deuten auch darauf hin, dass die Ergebnisse die fotorealistisch verbesserten Bilder übertreffen, die durch das direkte Training einer leichtgewichtigen ungepaarten Im2Im-Übersetzungsmethode zur Übersetzung der Videospielbilder in Richtung der visuellen Eigenschaften realer Bilder erzeugt werden. Code, vortrainierte Modelle und Demos für diese Arbeit sind verfügbar unter: https://github.com/stefanos50/REGEN.
Frühere Arbeiten haben gezeigt, dass Präsuppositionen in generierten Fragen ungeprüfte Annahmen einführen können, was zu Inkonsistenzen bei der Behauptungsüberprüfung führt. Darüber hinaus bleibt die Prompt-Sensitivität eine erhebliche Herausforderung für große Sprachmodelle (LLMs), was zu Leistungsschwankungen von bis zu 3-6 % führt. Obwohl jüngste Fortschritte diese Lücke verringert haben, zeigt unsere Studie, dass die Prompt-Sensitivität ein anhaltendes Problem bleibt. Um dies zu adressieren, schlagen wir ein strukturiertes und robustes Behauptungsüberprüfungsframework vor, das durch präsuppositionsfreie, zerlegte Fragen argumentiert. Umfangreiche Experimente mit verschiedenen Prompts, Datensätzen und LLMs zeigen, dass selbst state-of-the-art Modelle anfällig für Prompt-Varianz und Präsuppositionen bleiben. Unsere Methode mildert diese Probleme konsequent und erzielt eine Verbesserung von bis zu 2-5 %.