Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Künstliche Intelligenz (KI) beschleunigt die Transformation von wissenschaftlichen Forschungsparadigmen, indem sie nicht nur die Forschungseffizienz steigert, sondern auch Innovationen vorantreibt. Wir stellen NovelSeek vor, ein einheitliches, geschlossenes Multi-Agenten-Framework zur Durchführung von Autonomer Wissenschaftlicher Forschung (ASR) in verschiedenen wissenschaftlichen Forschungsbereichen, das Forschern ermöglicht, komplexe Probleme in diesen Bereichen mit beispielloser Geschwindigkeit und Präzision zu bewältigen. NovelSeek hebt drei wesentliche Vorteile hervor: 1) Skalierbarkeit: NovelSeek hat seine Vielseitigkeit in 12 wissenschaftlichen Forschungsaufgaben unter Beweis gestellt und ist in der Lage, innovative Ideen zur Verbesserung der Leistung von Baseline-Code zu generieren. 2) Interaktivität: NovelSeek bietet eine Schnittstelle für Feedback von menschlichen Experten und Multi-Agenten-Interaktion in automatisierten End-to-End-Prozessen, wodurch die nahtlose Integration von domänenspezifischem Expertenwissen ermöglicht wird. 3) Effizienz: NovelSeek hat in mehreren wissenschaftlichen Bereichen vielversprechende Leistungssteigerungen erzielt, wobei der Zeitaufwand im Vergleich zu menschlichen Bemühungen erheblich geringer ist. Beispielsweise stieg die Vorhersage der Reaktionsausbeute in nur 12 Stunden von 27,6 % auf 35,4 %; bei der Vorhersage der Enhancer-Aktivität erhöhte sich die Genauigkeit von 0,52 auf 0,79 mit nur 4 Stunden Verarbeitungszeit; und bei der 2D-Semantiksegmentierung verbesserte sich die Präzision von 78,8 % auf 81,0 % in nur 30 Stunden.
Die Befolgung von Anweisungen ist entscheidend, um große Sprachmodelle (LLMs) mit den Absichten der Nutzer in Einklang zu bringen. Während neuere, auf logisches Denken ausgerichtete Modelle beeindruckende Leistungen bei komplexen mathematischen Problemen zeigen, bleibt ihre Fähigkeit, natürliche Sprachanweisungen zu befolgen, weitgehend unerforscht. In dieser Arbeit stellen wir MathIF vor, einen speziellen Benchmark zur Bewertung der Anweisungsbefolgung bei mathematischen Denkaufgaben. Unsere empirische Analyse zeigt eine beständige Spannung zwischen der Steigerung der Denkfähigkeit und der Aufrechterhaltung der Kontrollierbarkeit, da Modelle, die effektiver schlussfolgern, oft Schwierigkeiten haben, Nutzeranweisungen zu befolgen. Wir stellen fest, dass Modelle, die auf destillierten langen Gedankenketten abgestimmt oder mit auf logisches Denken ausgerichtetem Reinforcement Learning trainiert wurden, oft in der Anweisungsbefolgung nachlassen, insbesondere wenn die Generierungslänge zunimmt. Darüber hinaus zeigen wir, dass selbst einfache Interventionen die Befolgung teilweise wiederherstellen können, allerdings auf Kosten der Denkleistung. Diese Erkenntnisse verdeutlichen eine grundlegende Spannung in den aktuellen Trainingsparadigmen für LLMs und unterstreichen die Notwendigkeit von Modellen, die stärker auf Anweisungen ausgerichtet sind. Wir veröffentlichen den Code und die Daten unter https://github.com/TingchenFu/MathIF.
Kürzlich haben große Sprachmodelle (LLMs) bemerkenswerte Fähigkeiten im Bereich des logischen Denkens durch groß angelegtes Reinforcement Learning (RL) gezeigt. Die Nutzung des RL-Algorithmus, um effektives kollaboratives Denken mit mehreren Werkzeugen in LLMs zu ermöglichen, bleibt jedoch eine offene Herausforderung. In diesem Artikel stellen wir Tool-Star vor, ein RL-basiertes Framework, das darauf abzielt, LLMs zu befähigen, während des schrittweisen Denkprozesses autonom mehrere externe Werkzeuge aufzurufen. Tool-Star integriert sechs Arten von Werkzeugen und beinhaltet systematische Designs sowohl in der Datensynthese als auch im Training. Um den Mangel an Daten zur Werkzeugnutzung zu beheben, schlagen wir eine allgemeine Pipeline zur Synthese von Daten für das Denken mit Werkzeugen vor, die werkzeugintegrierte Prompting mit hinweisbasierter Stichprobenziehung kombiniert, um automatisch und skalierbar Werkzeugnutzungspfade zu generieren. Ein anschließender Prozess der Qualitätsnormalisierung und schwierigkeitsbewussten Klassifizierung filtert minderwertige Proben aus und organisiert den Datensatz von einfach bis schwierig. Darüber hinaus schlagen wir ein zweistufiges Trainingsframework vor, um das kollaborative Denken mit mehreren Werkzeugen zu verbessern durch: (1) Cold-Start-Fine-Tuning, das LLMs anleitet, Denkmuster durch Rückmeldungen zum Werkzeugaufruf zu erkunden; und (2) einen Multi-Tool-Self-Critic-RL-Algorithmus mit hierarchischem Belohnungsdesign, der das Verständnis von Belohnungen verstärkt und eine effektive Werkzeugkollaboration fördert. Experimentelle Analysen auf über 10 anspruchsvollen Denkbenchmarks unterstreichen die Wirksamkeit und Effizienz von Tool-Star. Der Code ist verfügbar unter https://github.com/dongguanting/Tool-Star.
Chain-of-Thought-Reasoning hat die Leistung von Large Language Models (LLMs) in verschiedenen Domänen erheblich verbessert. Dieser Denkprozess war jedoch ausschließlich auf den Textraum beschränkt, was seine Wirksamkeit bei visuell anspruchsvollen Aufgaben einschränkte. Um diese Einschränkung zu überwinden, führen wir das Konzept des Denkens im Pixelraum ein. In diesem neuartigen Framework werden Vision-Language Models (VLMs) mit einer Reihe von visuellen Denkoperationen ausgestattet, wie beispielsweise Zoom-in und Frame-Auswahl. Diese Operationen ermöglichen es VLMs, visuelle Beweise direkt zu untersuchen, zu hinterfragen und daraus Schlussfolgerungen zu ziehen, wodurch die Denkgenauigkeit bei visuellen Aufgaben verbessert wird. Die Entwicklung solcher Pixelraum-Denkfähigkeiten in VLMs stellt jedoch erhebliche Herausforderungen dar, darunter die anfänglich unausgewogene Kompetenz des Modells und seine Zurückhaltung, die neu eingeführten Pixelraum-Operationen zu übernehmen. Wir adressieren diese Herausforderungen durch einen zweiphasigen Trainingsansatz. In der ersten Phase wird das Modell durch Instruction Tuning an synthetisierten Denkspuren mit den neuen visuellen Operationen vertraut gemacht. Darauf folgt eine Reinforcement-Learning-(RL)-Phase, die ein neugiergetriebenes Belohnungsschema nutzt, um die Exploration zwischen Pixelraum-Denken und textbasiertem Denken auszugleichen. Mit diesen visuellen Operationen können VLMs mit komplexen visuellen Eingaben, wie informationsreichen Bildern oder Videos, interagieren, um proaktiv notwendige Informationen zu sammeln. Wir zeigen, dass dieser Ansatz die Leistung von VLMs in verschiedenen visuellen Denkbenchmarks signifikant verbessert. Unser 7B-Modell, \model, erreicht 84 % auf V* Bench, 74 % auf TallyQA-Complex und 84 % auf InfographicsVQA, was die höchste Genauigkeit darstellt, die bisher von einem Open-Source-Modell erreicht wurde. Diese Ergebnisse unterstreichen die Bedeutung des Denkens im Pixelraum und die Effektivität unseres Frameworks.
Jüngste Fortschritte in multimodalen generativen Modellen haben bedeutende Fortschritte bei der instruktionsbasierten Bildbearbeitung ermöglicht. Während diese Modelle jedoch visuell plausible Ergebnisse liefern, bleibt ihre Fähigkeit zur Bearbeitung von Aufgaben, die wissensbasiertes Denken erfordern, weitgehend unerforscht. In diesem Artikel stellen wir KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) vor, einen diagnostischen Benchmark, der darauf abzielt, Modelle durch eine kognitiv informierte Linse zu bewerten. Basierend auf der Bildungstheorie kategorisiert KRIS-Bench Bearbeitungsaufgaben in drei grundlegende Wissensarten: Faktisches, Konzeptuelles und Prozedurales. Auf Grundlage dieser Taxonomie entwerfen wir 22 repräsentative Aufgaben, die 7 Denkdimensionen abdecken, und veröffentlichen 1.267 hochwertig annotierte Bearbeitungsinstanzen. Um eine detaillierte Bewertung zu unterstützen, schlagen wir ein umfassendes Protokoll vor, das eine neuartige Metrik zur Wissensplausibilität integriert, durch Wissenshinweise erweitert und durch menschliche Studien kalibriert wird. Empirische Ergebnisse von 10 state-of-the-art Modellen zeigen erhebliche Lücken in der Denkleistung auf und unterstreichen die Notwendigkeit von wissenszentrierten Benchmarks, um die Entwicklung intelligenter Bildbearbeitungssysteme voranzutreiben.
Das Verständnis von langen Videos hat sich als entscheidende Fähigkeit in realen Anwendungen wie Videoüberwachung, Besprechungszusammenfassung, Analyse von Bildungsvorträgen und Sportübertragungen herausgestellt. Es bleibt jedoch für VideoLLMs aufgrund von zwei Engpässen rechenintensiv: 1) Die sequenzielle Videodekodierung, also der Prozess der Umwandlung des Rohdatenstroms in RGB-Bilder, kann bei stundenlangen Videoeingaben bis zu einer Minute dauern, und 2) das kostspielige Vorausfüllen von bis zu mehreren Millionen Token für die LLM-Inferenz, was zu hoher Latenz und Speichernutzung führt. Um diese Herausforderungen zu bewältigen, schlagen wir QuickVideo vor, ein System-Algorithmus-Co-Design, das das Verständnis von langen Videos erheblich beschleunigt, um Echtzeitanwendungen zu unterstützen. Es besteht aus drei Schlüsselinnovationen: QuickDecoder, einem parallelisierten CPU-basierten Videodecoder, der durch die Aufteilung von Videos in keyframe-ausgerichtete Intervalle, die gleichzeitig verarbeitet werden, eine 2-3-fache Beschleunigung erreicht; QuickPrefill, einer speichereffizienten Vorausfüllmethode, die KV-Cache-Beschneidung verwendet, um mehr Bilder mit weniger GPU-Speicher zu unterstützen; und einem Überlappungsschema, das die CPU-Videodekodierung mit der GPU-Inferenz überlappt. Zusammen reduzieren diese Komponenten die Inferenzzeit bei langen Videoeingaben um eine Minute und ermöglichen so skalierbares, hochwertiges Videoverständnis auch auf begrenzter Hardware. Experimente zeigen, dass QuickVideo über verschiedene Dauer und Abtastraten hinweg generalisiert, was die Verarbeitung langer Videos in der Praxis machbar macht.
Diffusion Transformers haben sich als Grundlage für visuelle generative Modelle etabliert, doch ihre Skalierbarkeit wird durch die hohen Kosten der Hyperparameteroptimierung (HP) in großem Maßstab eingeschränkt. Kürzlich wurde die Maximal Update Parametrisierung (muP) für Standard-Transformers vorgeschlagen, die einen stabilen HP-Transfer von kleinen zu großen Sprachmodellen ermöglicht und die Optimierungskosten drastisch reduziert. Es bleibt jedoch unklar, ob muP für Standard-Transformers auch auf Diffusion Transformers anwendbar ist, die sich sowohl architektonisch als auch in ihren Zielsetzungen unterscheiden. In dieser Arbeit verallgemeinern wir die Standard-muP auf Diffusion Transformers und validieren ihre Wirksamkeit durch groß angelegte Experimente. Zunächst beweisen wir rigoros, dass die muP von gängigen Diffusion Transformers, einschließlich DiT, U-ViT, PixArt-alpha und MMDiT, mit der des Standard-Transformers übereinstimmt, was die direkte Anwendung bestehender muP-Methoden ermöglicht. Basierend auf diesem Ergebnis zeigen wir systematisch, dass DiT-muP eine robuste HP-Übertragbarkeit aufweist. Insbesondere erreicht DiT-XL-2-muP mit übertragener Lernrate eine 2,9-mal schnellere Konvergenz als das ursprüngliche DiT-XL-2. Schließlich validieren wir die Wirksamkeit von muP bei der Text-zu-Bild-Generierung, indem wir PixArt-alpha von 0,04B auf 0,61B und MMDiT von 0,18B auf 18B skalieren. In beiden Fällen übertreffen Modelle unter muP ihre jeweiligen Baselines bei geringen Optimierungskosten, die nur 5,5 % eines Trainingslaufs für PixArt-alpha und 3 % des Verbrauchs durch menschliche Experten für MMDiT-18B betragen. Diese Ergebnisse etablieren muP als ein prinzipielles und effizientes Framework für die Skalierung von Diffusion Transformers.
In dieser Arbeit stellen wir LLaDA-V vor, ein rein diffusionsbasiertes Multimodales Großes Sprachmodell (MLLM), das visuelles Instruction Tuning mit maskierten Diffusionsmodellen integriert und damit einen Bruch mit den in aktuellen multimodalen Ansätzen dominierenden autoregressiven Paradigmen darstellt. Basierend auf LLaDA, einem repräsentativen großen Sprachdiffusionsmodell, integriert LLaDA-V einen Vision-Encoder und einen MLP-Connector, der visuelle Merkmale in den Sprach-Einbettungsraum projiziert und so eine effektive multimodale Ausrichtung ermöglicht. Unsere empirische Untersuchung zeigt mehrere interessante Ergebnisse: Erstens demonstriert LLaDA-V vielversprechende multimodale Leistungen, obwohl sein Sprachmodell bei rein textbasierten Aufgaben schwächer ist als Gegenstücke wie LLaMA3-8B und Qwen2-7B. Bei gleicher Trainingsdatenbasis ist LLaDA-V im Vergleich zu LLaMA3-V in multimodalen Aufgaben äußerst wettbewerbsfähig und zeigt eine bessere Daten-Skalierbarkeit. Es verringert auch die Leistungslücke zu Qwen2-VL, was die Effektivität seiner Architektur für multimodale Aufgaben nahelegt. Zweitens erreicht LLaDA-V im Vergleich zu bestehenden hybriden autoregressiv-diffusionsbasierten und rein diffusionsbasierten MLLMs Spitzenleistungen im multimodalen Verständnis. Unsere Ergebnisse deuten darauf hin, dass große Sprachdiffusionsmodelle in multimodalen Kontexten vielversprechend sind und weitere Untersuchungen in zukünftigen Forschungen rechtfertigen. Projektseite und Codes: https://ml-gsai.github.io/LLaDA-V-demo/.
Trotz jüngster Fortschritte im Bereich des groß angelegten Reinforcement Learning (RL) für das logische Denken bleibt das Trainingsrezept zur Entwicklung hochleistungsfähiger Denkmodelle schwer fassbar. Wichtige Implementierungsdetails von Spitzenmodellen wie DeepSeek-R1, einschließlich Strategien zur Datenkuratierung und RL-Trainingsrezepten, werden oft nicht offengelegt. Darüber hinaus zeigt aktuelle Forschung, dass die Destillation für kleinere Modelle nach wie vor effektiver ist als RL. In dieser Arbeit demonstrieren wir, dass groß angelegtes RL die Denkfähigkeiten starker, kleiner und mittelgroßer Modelle erheblich verbessern kann und Ergebnisse erzielt, die diejenigen von state-of-the-art Destillationsmodellen übertreffen. Wir untersuchen den RL-Trainingsprozess systematisch durch umfangreiche Ablationen und schlagen einen einfachen, aber effektiven Ansatz vor: Zuerst Training mit ausschließlich mathematischen Prompts, gefolgt von Training mit ausschließlich Code-Prompts. Bemerkenswerterweise stellen wir fest, dass RL mit rein mathematischen Prompts nicht nur die Leistung starker destillierter Modelle bei mathematischen Benchmarks signifikant steigert (z. B. +14,6 % / +17,2 % bei AIME 2025 für die 7B / 14B Modelle), sondern auch bei Code-Denkaufgaben (z. B. +6,8 % / +5,8 % bei LiveCodeBench für die 7B / 14B Modelle). Darüber hinaus verbessern zusätzliche RL-Iterationen mit reinen Code-Prompts die Leistung bei Code-Benchmarks weiter, mit minimaler oder keiner Verschlechterung der mathematischen Ergebnisse. Wir entwickeln eine robuste Datenkuratierungspipeline, um herausfordernde Prompts mit hochwertigen, überprüfbaren Antworten und Testfällen zu sammeln, um verifikationsbasiertes RL in beiden Domänen zu ermöglichen. Schließlich identifizieren wir wichtige experimentelle Erkenntnisse, darunter Curriculum-Learning mit progressiv ansteigenden Antwortlängen und die stabilisierende Wirkung von On-Policy-Parameteraktualisierungen. Wir stellen fest, dass RL nicht nur die grundlegenden Denkfähigkeiten, die während des Vortrainings und des überwachten Feinabstimmens (z. B. Destillation) erworben wurden, hervorruft, sondern auch die Grenzen der Denkfähigkeit des Modells erweitert, sodass es Probleme lösen kann, die zuvor unlösbar waren.
Visuelle Generationsmodelle haben bemerkenswerte Fortschritte bei der Erstellung realistischer Bilder aus Textbeschreibungen gemacht, kämpfen jedoch mit komplexen Eingaben, die mehrere Objekte mit präzisen räumlichen Beziehungen und Attributen spezifizieren. Die effektive Handhabung solcher Eingaben erfordert explizites Schlussfolgern über den semantischen Inhalt und die räumliche Anordnung. Wir stellen GoT-R1 vor, ein Framework, das Reinforcement Learning anwendet, um das semantisch-räumliche Schlussfolgern in der visuellen Generierung zu verbessern. Aufbauend auf dem Generation Chain-of-Thought-Ansatz ermöglicht GoT-R1 Modellen, effektive Schlussfolgerungsstrategien jenseits vordefinierter Vorlagen durch sorgfältig gestaltetes Reinforcement Learning autonom zu entdecken. Um dies zu erreichen, schlagen wir ein zweistufiges, mehrdimensionales Belohnungssystem vor, das MLLMs nutzt, um sowohl den Schlussfolgerungsprozess als auch das Endergebnis zu bewerten und so eine effektive Überwachung über die gesamte Generationspipeline hinweg zu ermöglichen. Das Belohnungssystem bewertet semantische Ausrichtung, räumliche Genauigkeit und visuelle Qualität in einem einheitlichen Ansatz. Experimentelle Ergebnisse zeigen signifikante Verbesserungen im T2I-CompBench-Benchmark, insbesondere bei kompositionellen Aufgaben, die präzise räumliche Beziehungen und Attributbindung beinhalten. GoT-R1 setzt neue Maßstäbe in der Bildgeneration, indem es erfolgreich anspruchsvolle Schlussfolgerungsfähigkeiten in den Bereich der visuellen Generierung überträgt. Um zukünftige Forschung zu erleichtern, stellen wir unseren Code und vortrainierte Modelle öffentlich unter https://github.com/gogoduan/GoT-R1 zur Verfügung.
Risikoaverses Reinforcement Learning findet Anwendung in verschiedenen hochriskanten Bereichen. Im Gegensatz zum klassischen Reinforcement Learning, das darauf abzielt, den erwarteten Ertrag zu maximieren, wählen risikoaverse Agenten Strategien, die das Risiko minimieren, wobei sie gelegentlich den erwarteten Wert opfern. Diese Präferenzen können durch die Nutzentheorie formuliert werden. Wir konzentrieren uns auf den speziellen Fall der exponentiellen Nutzenfunktion, bei der wir die Bellman-Gleichungen ableiten und verschiedene Reinforcement-Learning-Algorithmen mit wenigen Anpassungen einsetzen können. Diese Methoden leiden jedoch unter numerischer Instabilität, da sie die Berechnung von Exponenten während des gesamten Prozesses erfordern. Um dies zu beheben, führen wir eine numerisch stabile und mathematisch fundierte Verlustfunktion basierend auf der Itakura-Saito-Divergenz für das Lernen von Zustands- und Aktionswertfunktionen ein. Wir bewerten unsere vorgeschlagene Verlustfunktion sowohl theoretisch als auch empirisch gegenüber etablierten Alternativen. Im experimentellen Teil untersuchen wir mehrere Finanzszenarien, einige mit bekannten analytischen Lösungen, und zeigen, dass unsere Verlustfunktion die Alternativen übertrifft.
Das Training robuster Retrieval- und Reranker-Modelle basiert typischerweise auf groß angelegten Retrieval-Datensätzen; beispielsweise enthält die BGE-Sammlung 1,6 Millionen Abfrage-Passage-Paare aus verschiedenen Datenquellen. Wir stellen jedoch fest, dass bestimmte Datensätze die Modellwirksamkeit negativ beeinflussen können – das Entfernen von 8 aus 15 Datensätzen aus der BGE-Sammlung verringert die Trainingsdatengröße um das 2,35-fache und erhöht den nDCG@10-Wert auf BEIR um 1,0 Punkt. Dies motiviert eine tiefergehende Untersuchung der Qualität der Trainingsdaten, mit einem besonderen Fokus auf „falsche Negative“, bei denen relevante Passagen fälschlicherweise als irrelevant gekennzeichnet sind. Wir schlagen einen einfachen, kosteneffizienten Ansatz vor, der kaskadierende LLM-Prompts verwendet, um schwierige Negative zu identifizieren und neu zu kennzeichnen. Experimentelle Ergebnisse zeigen, dass die Neukennzeichnung falscher Negative mit echten Positiven sowohl die E5 (Base)- als auch die Qwen2.5-7B-Retrieval-Modelle um 0,7–1,4 nDCG@10 auf BEIR und um 1,7–1,8 nDCG@10 bei der Zero-Shot-AIR-Bench-Evaluierung verbessert. Ähnliche Verbesserungen werden bei Rerankern beobachtet, die auf den neu gekennzeichneten Daten feinabgestimmt wurden, wie z. B. Qwen2.5-3B auf BEIR. Die Zuverlässigkeit des kaskadierenden Designs wird weiter durch menschliche Annotationsergebnisse gestützt, bei denen wir feststellen, dass die Bewertung durch GPT-4o eine deutlich höhere Übereinstimmung mit menschlichen Bewertungen zeigt als GPT-4o-mini.
Generative KI (GenAI) birgt erhebliches Potenzial für die Automatisierung alltäglicher Bildbearbeitungsaufgaben, insbesondere nach der jüngsten Veröffentlichung von GPT-4o am 25. März 2025. Doch welche Motive möchten die Menschen am häufigsten bearbeiten lassen? Welche Arten von Bearbeitungsaktionen wünschen sie sich (z. B. Entfernen oder Stilisieren des Motivs)? Bevorzugen die Menschen präzise Bearbeitungen mit vorhersehbaren Ergebnissen oder hochkreative? Indem wir die Merkmale realer Bearbeitungsanfragen und die entsprechenden Bearbeitungen durch freiberufliche Foto-Bearbeitungsexperten verstehen, können wir Erkenntnisse für die Verbesserung KI-basierter Bearbeitungswerkzeuge gewinnen und bestimmen, welche Arten von Anfragen derzeit erfolgreich durch KI-Bearbeitungswerkzeuge bewältigt werden können? In diesem Artikel präsentieren wir eine einzigartige Studie, die diese Fragen untersucht, indem sie 83.000 Anfragen aus den letzten 12 Jahren (2013–2025) in der Reddit-Community analysiert, die 305.000 PSR-Expertenbearbeitungen gesammelt hat. Laut menschlicher Bewertungen können nur etwa 33 % der Anfragen durch die besten KI-Bearbeitungswerkzeuge (einschließlich GPT-4o, Gemini-2.0-Flash, SeedEdit) erfüllt werden. Interessanterweise schneiden KI-Bearbeitungswerkzeuge bei Anfragen mit geringer Kreativität, die präzise Bearbeitungen erfordern, schlechter ab als bei offeneren Aufgaben. Sie haben oft Schwierigkeiten, die Identität von Personen und Tieren zu bewahren und führen häufig unerwünschte Nachbesserungen durch. Auf der anderen Seite bewerten VLM-Gutachter (z. B. o1) anders als menschliche Gutachter und bevorzugen möglicherweise KI-Bearbeitungen stärker als menschliche. Code und qualitative Beispiele sind verfügbar unter: https://psrdataset.github.io
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei mathematischen Aufgaben durch Chain-of-Thought (CoT)-Argumentation erzielt. Allerdings leiden bestehende mathematische CoT-Datensätze oft unter Gedankensprüngen, da Experten Zwischenschritte auslassen, was sich negativ auf das Modelllernen und die Generalisierung auswirkt. Wir schlagen die CoT Thought Leap Bridge Task vor, die darauf abzielt, Sprünge automatisch zu erkennen und fehlende Zwischenschritte in der Argumentation zu generieren, um die Vollständigkeit und Kohärenz von CoT wiederherzustellen. Um dies zu ermöglichen, haben wir einen spezialisierten Trainingsdatensatz namens ScaleQM+ auf Basis des strukturierten ScaleQuestMath-Datensatzes erstellt und CoT-Bridge trainiert, um Gedankensprünge zu überbrücken. Durch umfassende Experimente auf mathematischen Argumentations-Benchmarks zeigen wir, dass Modelle, die auf überbrückten Datensätzen feinabgestimmt wurden, durchweg besser abschneiden als solche, die auf Originaldatensätzen trainiert wurden, mit Verbesserungen von bis zu +5,87 % auf NuminaMath. Unser Ansatz verbessert effektiv destillierte Daten (+3,02 %) und bietet bessere Ausgangspunkte für Reinforcement Learning (+3,1 %), wobei er als Plug-and-Play-Modul mit bestehenden Optimierungstechniken kompatibel ist. Darüber hinaus zeigt CoT-Bridge eine verbesserte Generalisierung auf domänenfremde logische Argumentationsaufgaben, was bestätigt, dass die Erhöhung der Argumentationsvollständigkeit breit anwendbare Vorteile bringt.
Große Reasoning-Modelle (LRMs), wie OpenAI o1 und DeepSeek-R1, haben ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessert, indem sie längere Gedankenketten generieren und dabei herausragende Leistungen in einer Vielzahl von Aufgaben demonstrieren. Dieser Leistungsgewinn geht jedoch mit einem erheblichen Anstieg redundanter Schlussfolgerungen während des Generierungsprozesses einher, was zu hohem Rechenaufwand führt und das Problem des Überdenkens verschärft. Obwohl zahlreiche bestehende Ansätze darauf abzielen, das Problem des Überdenkens zu lösen, stützen sie sich oft auf externe Eingriffe. In diesem Artikel schlagen wir ein neuartiges Framework vor, Self-Braking Tuning (SBT), das das Überdenken aus der Perspektive angeht, dem Modell zu ermöglichen, seinen eigenen Reasoning-Prozess zu regulieren und somit die Abhängigkeit von externen Kontrollmechanismen zu beseitigen. Wir entwickeln eine Reihe von Metriken zur Identifikation von Überdenken, die auf Standardantworten basieren, und entwerfen eine systematische Methode zur Erkennung redundanter Schlussfolgerungen. Diese Methode identifiziert präzise unnötige Schritte innerhalb des Reasoning-Pfads und generiert Trainingssignale für das Erlernen von Selbstregulierungsverhalten. Auf dieser Grundlage entwickeln wir eine umfassende Strategie zur Erstellung von Daten mit adaptiven Reasoning-Längen und führen einen innovativen Brems-Prompt-Mechanismus ein, der es dem Modell ermöglicht, auf natürliche Weise zu lernen, wann es den Reasoning-Prozess an einem geeigneten Punkt beenden soll. Experimente über mathematische Benchmarks (AIME, AMC, MATH500, GSM8K) zeigen, dass unsere Methode den Token-Verbrauch um bis zu 60 % reduziert, während sie eine vergleichbare Genauigkeit wie unbegrenzte Modelle beibehält.
Trotz der bemerkenswerten Generierungsqualität von Video-Diffusion-Transformer (DiT)-Modellen wird ihre praktische Anwendung durch umfangreiche Rechenanforderungen erheblich behindert. Diese Ineffizienz resultiert aus zwei zentralen Herausforderungen: der quadratischen Komplexität der Selbstaufmerksamkeit in Bezug auf die Token-Länge und der Mehrschritt-Natur von Diffusionsmodellen. Um diese Einschränkungen zu überwinden, präsentieren wir Jenga, eine neuartige Inferenz-Pipeline, die dynamische Aufmerksamkeitsreduzierung mit progressiver Auflösungsgenerierung kombiniert. Unser Ansatz nutzt zwei wesentliche Erkenntnisse: (1) frühe Entrauschungsschritte benötigen keine hochauflösenden Latents, und (2) spätere Schritte erfordern keine dichte Aufmerksamkeit. Jenga führt einen blockweisen Aufmerksamkeitsmechanismus ein, der relevante Token-Interaktionen mithilfe von 3D-Raumfüllkurven dynamisch auswählt, sowie eine progressive Auflösungsstrategie, die die Latent-Auflösung während der Generierung schrittweise erhöht. Experimentelle Ergebnisse zeigen, dass Jenga erhebliche Beschleunigungen bei mehreren state-of-the-art Video-Diffusionsmodellen erreicht, während die vergleichbare Generierungsqualität erhalten bleibt (8,83-fache Beschleunigung mit einem Leistungsabfall von 0,01 % auf VBench). Als Plug-and-Play-Lösung ermöglicht Jenga eine praktische, hochwertige Videogenerierung auf moderner Hardware, indem die Inferenzzeit von Minuten auf Sekunden reduziert wird – ohne dass eine Modellneuanpassung erforderlich ist. Code: https://github.com/dvlab-research/Jenga
In dieser Arbeit stellen wir Dimple vor, das erste Diskrete Diffusions-Multimodale Large Language Model (DMLLM). Wir beobachten, dass das Training mit einem rein diskreten Diffusionsansatz zu erheblicher Trainingsinstabilität, suboptimaler Leistung und schwerwiegenden Längenverzerrungsproblemen führt. Um diese Herausforderungen zu bewältigen, entwickeln wir ein neuartiges Trainingsparadigma, das eine anfängliche autoregressive Phase mit einer anschließenden Diffusionsphase kombiniert. Dieser Ansatz führt zum Dimple-7B-Modell, das auf demselben Datensatz und mit einer ähnlichen Trainingspipeline wie LLaVA-NEXT trainiert wurde. Dimple-7B übertrifft LLaVA-NEXT schließlich in der Leistung um 3,9 %, was zeigt, dass DMLLM eine mit autoregressiven Modellen vergleichbare Leistung erzielen kann. Um die Inferenzeffizienz zu verbessern, schlagen wir eine Decodierungsstrategie namens confident decoding vor, die die Anzahl der in jedem Schritt generierten Tokens dynamisch anpasst und die Anzahl der Generierungsiterationen erheblich reduziert. Bei autoregressiven Modellen entspricht die Anzahl der Vorwärtsiterationen während der Generierung der Antwortlänge. Mit confident decoding benötigt Dimple jedoch nur text{Antwortlänge}{3} Iterationen. Wir implementieren auch die Prefilling-Technik in autoregressiven Modellen neu und zeigen, dass sie die Leistung bei den meisten Benchmark-Auswertungen nicht wesentlich beeinträchtigt, während sie eine Beschleunigung von 1,5x bis 7x bietet. Zusätzlich untersuchen wir die Fähigkeit von Dimple, seine Antwort mithilfe von Strukturpriors präzise zu steuern. Diese Priors ermöglichen strukturierte Antworten auf eine Weise, die sich von anweisungsbasiertem oder Chain-of-Thought-Prompting unterscheidet, und ermöglichen eine fein abgestimmte Kontrolle über das Antwortformat und die Länge, was in autoregressiven Modellen schwer zu erreichen ist. Insgesamt bestätigt diese Arbeit die Machbarkeit und Vorteile von DMLLM und verbessert dessen Inferenzeffizienz und Steuerbarkeit. Code und Modelle sind unter https://github.com/yu-rp/Dimple verfügbar.
Da Videospiele mittlerweile die höchsten Umsätze in der Unterhaltungsbranche generieren, ist die Optimierung von Spielentwicklungsprozessen entscheidend für das nachhaltige Wachstum des Sektors. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) bieten erhebliches Potenzial, um verschiedene Aspekte der Spielentwicklung zu automatisieren und zu verbessern, insbesondere im Bereich der Qualitätssicherung (QA), die nach wie vor einer der arbeitsintensivsten Prozesse der Branche mit begrenzten Automatisierungsmöglichkeiten ist. Um die Leistung von VLMs in QA-Aufgaben für Videospiele genau zu bewerten und ihre Effektivität bei der Bewältigung realer Szenarien zu bestimmen, besteht ein klarer Bedarf an standardisierten Benchmarks, da bestehende Benchmarks die spezifischen Anforderungen dieses Bereichs nicht ausreichend abdecken. Um diese Lücke zu schließen, stellen wir VideoGameQA-Bench vor, einen umfassenden Benchmark, der eine Vielzahl von QA-Aktivitäten für Spiele abdeckt, darunter visuelle Unit-Tests, visuelle Regressionstests, Nadel-im-Heuhaufen-Aufgaben, Glitch-Erkennung und die Generierung von Fehlerberichten für sowohl Bilder als auch Videos verschiedener Spiele. Code und Daten sind verfügbar unter: https://asgaardlab.github.io/videogameqa-bench/
Während Reinforcement Learning (RL) bemerkenswerte Erfolge bei der Verbesserung großer Sprachmodelle (LLMs) gezeigt hat, lag der Fokus bisher hauptsächlich auf einstufigen Aufgaben wie dem Lösen von Mathematikproblemen. Die Ausbildung effektiver Web-Agenten für mehrstufige Interaktionen bleibt aufgrund der Komplexität langfristiger Entscheidungsfindung über dynamische Web-Oberflächen hinweg eine Herausforderung. In dieser Arbeit präsentieren wir WebAgent-R1, ein einfaches, aber effektives End-to-End-Mehrstufen-RL-Framework für die Ausbildung von Web-Agenten. Es lernt direkt aus Online-Interaktionen mit Web-Umgebungen, indem es asynchron diverse Trajektorien generiert, die vollständig durch binäre Belohnungen in Abhängigkeit vom Aufgaben-Erfolg gesteuert werden. Experimente auf dem WebArena-Lite-Benchmark demonstrieren die Wirksamkeit von WebAgent-R1, wodurch die Aufgaben-Erfolgsrate von Qwen-2.5-3B von 6,1 % auf 33,9 % und von Llama-3.1-8B von 8,5 % auf 44,8 % gesteigert wird, was bestehende State-of-the-Art-Methoden und starke proprietäre Modelle wie OpenAI o3 deutlich übertrifft. Tiefgehende Analysen zeigen die Wirksamkeit der Denk-basierten Prompting-Strategie und der Testzeit-Skalierung durch erhöhte Interaktionen für Web-Aufgaben. Wir untersuchen weiterhin verschiedene RL-Initialisierungsstrategien, indem wir zwei Varianten einführen, nämlich WebAgent-R1-Zero und WebAgent-R1-CoT, die die Bedeutung der Aufwärmtrainingsphase (d. h. Behavior Cloning) hervorheben und Einblicke in die Einbindung langer Chain-of-Thought (CoT)-Argumentation in Web-Agenten bieten.
Multimodale Large Language Models (MLLMs) werden zunehmend in Fine-Tuning-as-a-Service (FTaaS)-Umgebungen eingesetzt, bei denen benutzerspezifische Datensätze allgemeine Modelle für nachgelagerte Aufgaben anpassen. Diese Flexibilität birgt jedoch ernsthafte Sicherheitsrisiken, da bösartiges Fine-Tuning mit minimalem Aufwand Backdoors in MLLMs einpflanzen kann. In diesem Artikel beobachten wir, dass Backdoor-Trigger die cross-modale Verarbeitung systematisch stören, indem sie eine abnormale Aufmerksamkeitskonzentration auf nicht-semantische Regionen verursachen – ein Phänomen, das wir als Attention Collapse bezeichnen. Basierend auf dieser Erkenntnis schlagen wir Believe Your Eyes (BYE) vor, ein Datenfilterungsframework, das Aufmerksamkeitsentropiemuster als selbstüberwachte Signale nutzt, um Backdoor-Beispiele zu identifizieren und zu filtern. BYE arbeitet in einem dreistufigen Prozess: (1) Extraktion von Aufmerksamkeitskarten mithilfe des feinabgestimmten Modells, (2) Berechnung von Entropiewerten und Profilierung sensibler Schichten durch bimodale Trennung und (3) Durchführung von unüberwachtem Clustering, um verdächtige Proben zu entfernen. Im Gegensatz zu früheren Verteidigungsansätzen benötigt BYE keine saubere Überwachung, zusätzliche Labels oder Modifikationen des Modells. Umfangreiche Experimente über verschiedene Datensätze, Modelle und diverse Triggertypen bestätigen die Wirksamkeit von BYE: Es erreicht nahezu null Angriffserfolgsraten bei gleichbleibender Leistung in sauberen Aufgaben und bietet somit eine robuste und generalisierbare Lösung gegen Backdoor-Bedrohungen in MLLMs.
Jüngste Fortschritte haben gezeigt, dass multimodale große Sprachmodelle (MLLMs) durch regelbasiertes Reinforcement Learning (RL) mit Ergebnisbelohnungen starke Fähigkeiten im logischen Denken entwickeln können. Allerdings fehlt in diesem Paradigma typischerweise eine Überwachung des Denkprozesses, der zum Endergebnis führt. Infolgedessen kann das Modell suboptimale Denkstrategien erlernen, was seine Generalisierungsfähigkeit beeinträchtigen kann. Vor diesem Hintergrund schlagen wir SophiaVL-R1 vor, um Belohnungssignale für den Denkprozess in diesem Paradigma einzuführen. Um dies zu erreichen, trainieren wir zunächst ein Denkbelohnungsmodell, das die Qualität des gesamten Denkprozesses bewertet. Da die Denkbelohnung für bestimmte Proben aufgrund von Reward Hacking unzuverlässig sein kann, schlagen wir die Trust-GRPO-Methode vor, die der Denkbelohnung während des Trainings ein Vertrauensgewicht zuweist. Dieses Gewicht wird basierend auf dem Vergleich der Denkbelohnungen von Antworten, die zu richtigen versus falschen Ergebnissen führen, berechnet, um die Auswirkungen potenziell unzuverlässiger Denkbelohnungen zu mildern. Darüber hinaus entwerfen wir eine Annealing-Trainingsstrategie, die die Denkbelohnung schrittweise reduziert, sodass das Modell in späteren Trainingsphasen stärker auf die präzise regelbasierte Ergebnisbelohnung angewiesen ist. Experimente zeigen, dass unser SophiaVL-R1 eine Reihe von MLLMs für logisches Denken auf verschiedenen Benchmarks (z. B. MathVisita, MMMU) übertrifft und starke Denk- und Generalisierungsfähigkeiten demonstriert. Bemerkenswerterweise übertrifft unser SophiaVL-R1-7B sogar LLaVA-OneVision-72B auf den meisten Benchmarks, obwohl letzteres 10-mal mehr Parameter hat. Der gesamte Code, die Modelle und Datensätze sind öffentlich unter https://github.com/kxfan2002/SophiaVL-R1 verfügbar.
Reinforcement Learning (RL) hat sich zu einem leistungsstarken Werkzeug entwickelt, um die Argumentationsfähigkeiten großer Sprachmodelle (LLMs) zu verbessern, indem ihre Strategien mit Belohnungssignalen optimiert werden. Der Erfolg von RL hängt jedoch von der Zuverlässigkeit der Belohnungen ab, die von Verifizierern bereitgestellt werden. In diesem Artikel decken wir ein weit verbreitetes Problem auf und analysieren es – falsche Negative – bei dem Verifizierer korrekte Modellausgaben fälschlicherweise ablehnen. Unsere eingehende Untersuchung des Big-Math-RL-Verified-Datensatzes zeigt, dass über 38 % der modellgenerierten Antworten unter falschen Negativen leiden, bei denen der Verifizierer korrekte Antworten nicht erkennt. Wir zeigen sowohl empirisch als auch theoretisch, dass diese falschen Negative das RL-Training erheblich beeinträchtigen, indem sie dem Modell informative Gradientensignale vorenthalten und die Konvergenz verlangsamen. Um dies zu mildern, schlagen wir tinyV vor, einen leichtgewichtigen, auf LLMs basierenden Verifizierer, der bestehende regelbasierte Methoden ergänzt und potenzielle falsche Negative dynamisch identifiziert sowie gültige Antworten wiederherstellt, um genauere Belohnungsschätzungen zu erzeugen. Über mehrere mathematische Argumentations-Benchmarks hinweg steigert die Integration von TinyV die Erfolgsraten um bis zu 10 % und beschleunigt die Konvergenz im Vergleich zur Baseline. Unsere Ergebnisse unterstreichen die kritische Bedeutung der Behebung von falschen Negativen bei Verifizierern und bieten einen praktischen Ansatz zur Verbesserung der RL-basierten Feinabstimmung von LLMs. Unser Code ist verfügbar unter https://github.com/uw-nsl/TinyV.
Multimodale Large Language Models (MLLMs) haben beeindruckende Erfolge bei Frage-Antwort-Aufgaben erzielt, doch ihre Fähigkeiten im Bereich des räumlichen Verständnisses sind weniger erforscht. Diese Arbeit untersucht eine entscheidende Frage: Verfügen bestehende MLLMs über 3D-räumliche Wahrnehmungs- und Verständnisfähigkeiten? Konkret leisten wir in diesem Papier die folgenden Beiträge: (i) Wir führen VGBench ein, einen speziell entwickelten Benchmark zur Bewertung von MLLMs in Bezug auf visuelle Geometriewahrnehmung, z. B. Kamerapose und Bewegungsabschätzung; (ii) Wir schlagen SpatialScore vor, den bisher umfassendsten und vielfältigsten Benchmark für multimodales räumliches Verständnis, der VGBench mit relevanten Daten aus 11 weiteren bestehenden Datensätzen integriert. Dieser Benchmark umfasst 28.000 Proben über verschiedene räumliche Verständnisaufgaben, Modalitäten und Frage-Antwort-Formate hinweg, sowie eine sorgfältig kuratierte anspruchsvolle Teilmenge, SpatialScore-Hard; (iii) Wir entwickeln SpatialAgent, ein neuartiges Multi-Agenten-System, das 9 spezialisierte Tools für räumliches Verständnis integriert und sowohl Plan-Execute- als auch ReAct-Denkparadigmen unterstützt; (iv) Wir führen umfangreiche Evaluierungen durch, um anhaltende Herausforderungen im räumlichen Denken aufzuzeigen, während wir die Wirksamkeit von SpatialAgent demonstrieren. Wir glauben, dass SpatialScore wertvolle Einblicke bieten und als rigoroser Benchmark für die nächste Entwicklungsstufe von MLLMs dienen wird.
Moderne Vision-Language-Modelle (VLMs) können eine Vielzahl von Aufgaben lösen, die visuelles Denken erfordern. In realen Szenarien sind wünschenswerte Eigenschaften für VLMs schnelle Inferenz und kontrollierbare Generierung (z. B. die Beschränkung von Ausgaben auf ein gewünschtes Format). Allerdings haben bestehende autoregressive (AR) VLMs wie LLaVA in diesen Aspekten Schwierigkeiten. Diskrete Diffusionsmodelle (DMs) bieten eine vielversprechende Alternative, die parallele Dekodierung für schnellere Inferenz und bidirektionalen Kontext für kontrollierbare Generierung durch Text-Infilling ermöglicht. Während DMs in rein sprachlichen Umgebungen effektiv sind, ist ihr Potenzial für multimodale Aufgaben noch wenig erforscht. Wir stellen LaViDa vor, eine Familie von VLMs, die auf DMs basiert. Wir entwickeln LaViDa, indem wir DMs mit einem Vision-Encoder ausstatten und die kombinierten Teile gemeinsam für multimodale Instruktionsbefolgung feinabstimmen. Um aufgetretene Herausforderungen zu bewältigen, integriert LaViDa neuartige Techniken wie komplementäres Masking für effektives Training, Prefix-KV-Cache für effiziente Inferenz und Timestep-Shifting für hochwertiges Sampling. Experimente zeigen, dass LaViDa auf multimodalen Benchmarks wie MMMU eine wettbewerbsfähige oder überlegene Leistung gegenüber AR-VLMs erzielt, während es die einzigartigen Vorteile von DMs bietet, darunter flexible Geschwindigkeits-Qualitäts-Abwägungen, Kontrollierbarkeit und bidirektionales Denken. Bei der COCO-Bildbeschriftung übertrifft LaViDa Open-LLaVa-Next-8B um +4,1 CIDEr bei einer 1,92-fachen Beschleunigung. Bei bidirektionalen Aufgaben erzielt es eine Verbesserung von +59 % bei der Constrained Poem Completion. Diese Ergebnisse zeigen LaViDa als eine starke Alternative zu AR-VLMs. Code und Modelle werden in der Kamera-ready-Version veröffentlicht.
Aktuelle Studien haben die Wirksamkeit von Reinforcement Learning (RL) beim Aufbau von Denkmodellen gezeigt, die Gedankenketten artikulieren, bevor sie endgültige Antworten liefern. Trotz fortlaufender Fortschritte, die darauf abzielen, das Denken für visuell-sprachliche Aufgaben zu ermöglichen, generieren bestehende Open-Source-Modelle für visuelles Denken den Denkinhalt typischerweise in reiner natürlicher Sprache, ohne explizite Integration visueller Informationen. Dies schränkt ihre Fähigkeit ein, klar artikulierte und visuell fundierte Denkketten zu erzeugen. Zu diesem Zweck schlagen wir Grounded Reasoning with Images and Texts (GRIT) vor, eine neuartige Methode zur Schulung von MLLMs, mit Bildern zu denken. GRIT führt ein fundiertes Denkparadigma ein, bei dem Modelle Denkketten generieren, die natürliche Sprache und explizite Bounding-Box-Koordinaten miteinander verflechten. Diese Koordinaten verweisen auf Regionen des Eingabebildes, die das Modell während seines Denkprozesses konsultiert. Darüber hinaus ist GRIT mit einem Reinforcement-Learning-Ansatz, GRPO-GR, ausgestattet, der auf dem GRPO-Algorithmus basiert. GRPO-GR verwendet robuste Belohnungen, die sich auf die Genauigkeit der endgültigen Antwort und das Format des fundierten Denkens konzentrieren, wodurch der Bedarf an Daten mit Anmerkungen zu Denkketten oder expliziten Bounding-Box-Labels entfällt. Dadurch erreicht GRIT eine außergewöhnliche Dateneffizienz und benötigt lediglich 20 Bild-Frage-Antwort-Tripel aus bestehenden Datensätzen. Umfassende Auswertungen zeigen, dass GRIT MLLMs effektiv darin schult, kohärente und visuell fundierte Denkketten zu erzeugen, was eine erfolgreiche Vereinigung von Denk- und Fundierungsfähigkeiten demonstriert.
Reinforcement Learning (RL) hat sich als effektive Nachtrainingsstrategie erwiesen, um das Schlussfolgern in Vision-Language-Modellen (VLMs) zu verbessern. Group Relative Policy Optimization (GRPO) ist eine kürzlich entwickelte Methode, die Modelle dazu anregt, vollständige Schlussfolgerungsspuren zu generieren, bevor sie eine Antwort geben, was zu einem erhöhten Token-Verbrauch und höheren Rechenkosten führt. Inspiriert vom menschlichen Denkprozess – bei dem Menschen das Schlussfolgern bei einfachen Fragen überspringen, aber sorgfältig nachdenken, wenn es nötig ist – untersuchen wir, wie VLMs dazu befähigt werden können, zunächst zu entscheiden, wann Schlussfolgern notwendig ist. Um dies zu realisieren, schlagen wir TON vor, eine zweistufige Trainingsstrategie: (i) eine überwachte Feinabstimmung (SFT) mit einer einfachen, aber effektiven ‚Thought Dropout‘-Operation, bei der Schlussfolgerungsspuren zufällig durch leere Gedanken ersetzt werden. Dies führt ein Think-or-Not-Format ein, das als Kaltstart für selektives Schlussfolgern dient; (ii) eine GRPO-Phase, in der das Modell frei erkunden kann, wann es nachdenken soll oder nicht, während es aufgabenbezogene Ergebnisbelohnungen maximiert. Experimentelle Ergebnisse zeigen, dass TON die Abschlusslänge im Vergleich zu herkömmlichem GRPO um bis zu 90 % reduzieren kann, ohne die Leistung zu beeinträchtigen oder sie sogar zu verbessern. Weitere Bewertungen über verschiedene Vision-Language-Aufgaben – die eine Bandbreite von Schlussfolgerungsschwierigkeiten sowohl unter 3B- als auch 7B-Modellen abdecken – zeigen durchgängig, dass das Modell im Laufe des Trainings zunehmend lernt, unnötige Schlussfolgerungsschritte zu überspringen. Diese Erkenntnisse beleuchten den Weg hin zu menschenähnlichen Denkmustern in Reinforcement-Learning-Ansätzen. Unser Code ist verfügbar unter https://github.com/kokolerk/TON.
Kürzlich haben reasoning-basierte MLLMs (Multimodale Sprachmodelle) einen gewissen Erfolg bei der Generierung langfänger textueller Argumentationsketten erzielt. Dennoch haben sie weiterhin Schwierigkeiten mit komplexen Aufgaben, die ein dynamisches und iteratives Fokussieren und erneutes Betrachten von Bildregionen erfordern, um eine präzise Verankerung der textuellen Argumentation in visuellen Beweisen zu erreichen. Wir stellen VLM-R^3 (Visual Language Model with Region Recognition and Reasoning) vor, ein Framework, das ein MLLM mit der Fähigkeit ausstattet, (i) zu entscheiden, wann zusätzliche visuelle Beweise benötigt werden, (ii) zu bestimmen, wo innerhalb des Bildes verankert werden soll, und (iii) die relevanten Teilbildinhalte nahtlos in eine verschachtelte Gedankenkette einzufügen. Der Kern unserer Methode ist die Region-Conditioned Reinforcement Policy Optimization (R-GRPO), ein Trainingsparadigma, das das Modell dafür belohnt, informative Regionen auszuwählen, geeignete Transformationen (z.B. Zuschneiden, Zoomen) zu formulieren und den daraus resultierenden visuellen Kontext in nachfolgende Argumentationsschritte zu integrieren. Um diese Policy zu initialisieren, haben wir einen bescheidenen, aber sorgfältig kuratierten Visuo-Lingual Interleaved Rationale (VLIR)-Korpus zusammengestellt, der eine schrittweise Überwachung der Regionenauswahl und textuellen Begründung bietet. Umfangreiche Experimente auf MathVista, ScienceQA und anderen Benchmarks zeigen, dass VLM-R^3 einen neuen Stand der Technik in Zero-Shot- und Few-Shot-Szenarien setzt, wobei die größten Fortschritte bei Fragen zu beobachten sind, die subtiles räumliches Denken oder die Extraktion fein abgestufter visueller Hinweise erfordern.
Reinforcement Learning (RL) führt zu erheblichen Verbesserungen in der Leistung von großen Sprachmodellen (LLMs) bei nachgelagerten Aufgaben und ihrer Ausrichtung an menschlichen Werten. Überraschenderweise resultieren solche großen Fortschritte aus der Aktualisierung nur eines kleinen Teilnetzwerks, das lediglich 5 bis 30 Prozent der Parameter umfasst, während der Rest effektiv unverändert bleibt. Wir bezeichnen dieses Phänomen als Parameter-Update-Sparsity, die durch RL induziert wird. Dies wird bei allen 7 weit verbreiteten RL-Algorithmen (z.B. PPO, GRPO, DPO) und allen 10 LLMs aus verschiedenen Modellfamilien in unseren Experimenten beobachtet. Diese Sparsity ist intrinsisch und tritt ohne explizite Sparsity-fördernde Regularisierungen oder architektonische Einschränkungen auf. Das Feinabstimmen des Teilnetzwerks allein stellt die Testgenauigkeit wieder her und erzeugt bemerkenswerterweise ein Modell, das nahezu identisch mit dem durch vollständiges Feinabstimmen erhaltenen ist. Die Teilnetzwerke aus verschiedenen Zufallsinitialisierungen, Trainingsdaten und sogar RL-Algorithmen zeigen eine deutlich größere Überlappung als zufällig zu erwarten wäre. Unsere Analyse legt nahe, dass diese Sparsity nicht darauf zurückzuführen ist, dass nur eine Teilmenge der Schichten aktualisiert wird, sondern dass nahezu alle Parameter-Matrizen ähnlich spärliche Updates erhalten. Darüber hinaus sind die Updates für fast alle Parameter-Matrizen nahezu vollrangig, was darauf hindeutet, dass RL eine kleine Teilmenge von Parametern aktualisiert, die dennoch fast die gesamten Unterräume abdecken, die die Parameter-Matrizen darstellen können. Wir vermuten, dass diese Update-Sparsity hauptsächlich auf das Training mit Daten zurückzuführen ist, die nahe der Policy-Verteilung liegen, und dass Techniken, die die Policy dazu anregen, nahe am vortrainierten Modell zu bleiben, wie die KL-Regularisierung und Gradient Clipping, nur begrenzten Einfluss haben.
Jüngste Fortschritte bei Reasoning-LLMs (z. B. DeepSeek-R1 und OpenAI-o1) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens durch Reinforcement Learning demonstriert. Die Erweiterung dieser Fähigkeiten auf Multimodale LLMs (MLLMs) wird jedoch durch die prohibitiv hohen Kosten für das erneute Training und den Mangel an hochwertigen, verifizierbaren multimodalen Reasoning-Datensätzen behindert. Dieses Papier stellt das FRANK-Modell vor, ein training-FReies ANd r1-ähnliches MLLM, das Standard-MLLMs mit Reasoning- und Reflexionsfähigkeiten ausstattet, ohne dass Gradientenaktualisierungen oder zusätzliche Überwachung erforderlich sind. Unser zentraler Ansatz besteht darin, Wahrnehmung und logisches Denken über die Decoderschichten des MLLMs zu entkoppeln. Insbesondere beobachten wir, dass im Vergleich zu den tieferen Decoderschichten die flacheren Decoderschichten mehr Aufmerksamkeit auf visuelle Tokens legen, während die tieferen Decoderschichten sich auf textuelle Semantik konzentrieren. Diese Beobachtung motiviert einen hierarchischen Gewichtungsansatz, der ein visuell vortrainiertes MLLM mit einem auf Reasoning spezialisierten LLM kombiniert. Zu diesem Zweck schlagen wir einen schichtweisen, auf Taylor-Reihen basierenden geschlossenen Fusionsmechanismus vor, der die Reasoning-Kapazität in die tiefen Decoderschichten integriert, während die visuelle Verankerung in den flachen Decoderschichten erhalten bleibt. Umfangreiche Experimente auf anspruchsvollen multimodalen Reasoning-Benchmarks demonstrieren die Wirksamkeit unseres Ansatzes. Auf dem MMMU-Benchmark erreicht unser Modell FRANK-38B eine Genauigkeit von 69,2, übertrifft damit den stärksten Baseline InternVL2.5-38B um +5,3 und übertrifft sogar das proprietäre GPT-4o-Modell. Unsere Projekt-Homepage finden Sie unter: http://iip.whu.edu.cn/frank/index.html
Große Vision-Sprach-Modelle (LVLMs) bleiben anfällig für Halluzinationen und erzeugen oft Inhalte, die nicht mit den visuellen Eingaben übereinstimmen. Obwohl aktuelle Ansätze die multimodale Direct Preference Optimization (DPO) vorantreiben, um Halluzinationen zu reduzieren, stützen sie sich typischerweise auf vordefinierte oder zufällig bearbeitete negative Beispiele, die tatsächliche Modellfehler nicht widerspiegeln, was die Trainingswirksamkeit einschränkt. In dieser Arbeit schlagen wir ein Framework für Online Vision-Language Preference Learning (OViP) vor, das kontrastive Trainingsdaten dynamisch auf der Grundlage der eigenen halluzinierten Ausgaben des Modells konstruiert. Durch die Identifizierung semantischer Unterschiede zwischen gepaarten Antworten und die Synthese negativer Bilder mithilfe eines Diffusionsmodells generiert OViP relevantere Überwachungssignale in Echtzeit. Dieses fehlergetriebene Training ermöglicht eine adaptive Ausrichtung sowohl textueller als auch visueller Präferenzen. Darüber hinaus verfeinern wir bestehende Evaluierungsprotokolle, um den Kompromiss zwischen Halluzinationsunterdrückung und Ausdrucksstärke besser zu erfassen. Experimente zu Halluzinationen und allgemeinen Benchmarks zeigen, dass OViP Halluzinationen effektiv reduziert, während die Kernfähigkeiten der Multimodalität erhalten bleiben.
Multimodale große Sprachmodelle (MLLMs) haben sich in visuellen Aufgaben rasant weiterentwickelt, doch ihr räumliches Verständnis beschränkt sich weiterhin auf Einzelbilder, was sie für Robotik und andere reale Anwendungen, die eine Mehrbild-Argumentation erfordern, ungeeignet macht. In diesem Artikel schlagen wir ein Framework vor, um MLLMs mit robustem Mehrbild-Raumverständnis auszustatten, indem wir Tiefenwahrnehmung, visuelle Korrespondenz und dynamische Wahrnehmung integrieren. Kern unseres Ansatzes ist der MultiSPA-Datensatz, eine neuartige, groß angelegte Sammlung von mehr als 27 Millionen Proben, die diverse 3D- und 4D-Szenen umfasst. Neben MultiSPA führen wir einen umfassenden Benchmark ein, der ein breites Spektrum räumlicher Aufgaben unter einheitlichen Metriken testet. Unser resultierendes Modell, Multi-SpatialMLLM, erzielt signifikante Verbesserungen gegenüber Baseline- und proprietären Systemen und demonstriert skalierbare, generalisierbare Mehrbild-Argumentation. Wir beobachten weiterhin Mehrfachaufgaben-Vorteile und frühe Anzeichen von emergenten Fähigkeiten in anspruchsvollen Szenarien und zeigen, wie unser Modell als Mehrbild-Belohnungsannotator für die Robotik dienen kann.
Große Sprachmodelle (LLMs) haben fortgeschrittene Fähigkeiten in realen agentenbasierten Anwendungen demonstriert. Zunehmende Forschungsbemühungen zielen darauf ab, LLM-basierte Agenten zu entwickeln, um praktische Anforderungen zu erfüllen, was eine neue Herausforderung mit sich bringt: Agentenszenarien beinhalten oft umfangreiche Anweisungen mit komplexen Einschränkungen, wie z. B. ausführliche Systemprompts und detaillierte Werkzeugspezifikationen. Während die Einhaltung solcher Anweisungen für agentenbasierte Anwendungen entscheidend ist, bleibt die Frage, ob LLMs diesen zuverlässig folgen können, weitgehend unerforscht. In diesem Artikel stellen wir AgentIF vor, den ersten Benchmark zur systematischen Bewertung der Fähigkeit von LLMs, Anweisungen in agentenbasierten Szenarien zu befolgen. AgentIF zeichnet sich durch drei Schlüsselmerkmale aus: (1) Realistisch, konstruiert aus 50 realen agentenbasierten Anwendungen. (2) Lang, mit einem Durchschnitt von 1.723 Wörtern und einem Maximum von 15.630 Wörtern. (3) Komplex, mit einem Durchschnitt von 11,9 Einschränkungen pro Anweisung, die verschiedene Einschränkungstypen abdecken, wie z. B. Werkzeugspezifikationen und Bedingungseinschränkungen. Um AgentIF zu konstruieren, sammeln wir 707 von Menschen annotierte Anweisungen über 50 agentenbasierte Aufgaben aus industriellen Anwendungsagenten und Open-Source-Agentensystemen. Für jede Anweisung annotieren wir die zugehörigen Einschränkungen und entsprechenden Bewertungsmetriken, einschließlich codebasierter Bewertung, LLM-basierter Bewertung und hybrider Code-LLM-Bewertung. Wir verwenden AgentIF, um bestehende fortgeschrittene LLMs systematisch zu bewerten. Wir beobachten, dass aktuelle Modelle im Allgemeinen schlecht abschneiden, insbesondere bei der Handhabung komplexer Einschränkungsstrukturen und Werkzeugspezifikationen. Wir führen weiterhin Fehleranalysen und analytische Experimente zur Anweisungslänge und Meta-Einschränkungen durch und liefern einige Erkenntnisse über die Fehlermodi bestehender LLMs. Wir haben den Code und die Daten veröffentlicht, um zukünftige Forschung zu erleichtern.
Reinforcement Learning from Human Feedback (RLHF) hat sich zu einem leistungsstarken Paradigma für die Nachschulung großer Sprachmodelle entwickelt, um sie mit menschlichen Präferenzen in Einklang zu bringen. Eine zentrale Herausforderung bei RLHF besteht darin, präzise Belohnungssignale zu konstruieren, wobei konventionelle Bradley-Terry-Belohnungsmodelle (BT RMs) oft unter Empfindlichkeit gegenüber Datenmenge und -abdeckung sowie Anfälligkeit für Belohnungsmanipulation leiden. Generative Belohnungsmodelle (GenRMs) bieten eine robustere Alternative, indem sie Chain-of-Thought (CoT)-Begründungen gefolgt von einer finalen Belohnung generieren. Allerdings stützen sich bestehende GenRMs auf oberflächliches, vertikal skaliertes Denken, was ihre Fähigkeit einschränkt, nuancenreiche oder komplexe (z. B. argumentationsintensive) Aufgaben zu bewältigen. Darüber hinaus sind ihre paarweisen Präferenzausgaben nicht kompatibel mit standardmäßigen RLHF-Algorithmen, die punktuelle Belohnungssignale erfordern. In dieser Arbeit stellen wir Think-RM vor, ein Trainingsframework, das langfristiges Denken in GenRMs ermöglicht, indem es einen internen Denkprozess modelliert. Anstatt strukturierte, extern bereitgestellte Begründungen zu erzeugen, generiert Think-RM flexible, selbstgesteuerte Denkspuren, die fortgeschrittene Fähigkeiten wie Selbstreflexion, hypothetisches Denken und divergentes Denken unterstützen. Um diese Denkfähigkeiten zu fördern, wärmen wir die Modelle zunächst durch überwachtes Feintuning (SFT) über lange CoT-Daten auf. Anschließend verbessern wir die langfristigen Fähigkeiten des Modells durch regelbasiertes Reinforcement Learning (RL). Zusätzlich schlagen wir eine neuartige paarweise RLHF-Pipeline vor, die Richtlinien direkt unter Verwendung von paarweisen Präferenzbelohnungen optimiert, wodurch die Notwendigkeit einer punktuellen Belohnungsumwandlung entfällt und die Ausgaben von Think-RM effektiver genutzt werden können. Experimente zeigen, dass Think-RM auf dem RM-Bench state-of-the-art Ergebnisse erzielt und sowohl BT RM als auch vertikal skalierte GenRM um 8 % übertrifft. In Kombination mit unserer paarweisen RLHF-Pipeline zeigt es eine überlegene Endrichtlinienleistung im Vergleich zu traditionellen Ansätzen.
Large Reasoning Models (LRMs) führen ein neues Generationenparadigma ein, bei dem explizit vor der Beantwortung geschlussfolgert wird, was zu bemerkenswerten Verbesserungen bei komplexen Aufgaben führt. Sie bergen jedoch erhebliche Sicherheitsrisiken gegenüber schädlichen Anfragen und adversarischen Angriffen. Während aktuelle, weit verbreitete Sicherheitsbemühungen bei LRMs, wie das Supervised Fine-Tuning (SFT), die Sicherheitsleistung verbessern, stellen wir fest, dass SFT-angepasste Modelle Schwierigkeiten haben, auf unbekannte Jailbreak-Prompts zu generalisieren. Nach einer gründlichen Untersuchung der Generierung von LRMs identifizieren wir einen Sicherheits-Aha-Moment, der die Sicherheitslogik aktivieren und zu einer sicheren Antwort führen kann. Dieser Aha-Moment zeigt sich typischerweise im „Schlüsselsatz“, der dem Verständnisprozess der Modelle für die Anfrage folgt und anzeigen kann, ob das Modell sicher fortfahren wird. Basierend auf diesen Erkenntnissen schlagen wir SafeKey vor, das zwei komplementäre Ziele umfasst, um den Sicherheits-Aha-Moment im Schlüsselsatz besser zu aktivieren: (1) einen Dual-Path Safety Head, um das Sicherheitssignal in den internen Repräsentationen des Modells vor dem Schlüsselsatz zu verstärken, und (2) ein Query-Mask Modeling-Ziel, um die Aufmerksamkeit des Modells auf sein Anfrageverständnis zu verbessern, das wichtige Sicherheitshinweise enthält. Experimente über mehrere Sicherheitsbenchmarks zeigen, dass unsere Methoden die Sicherheitsgeneralisierung gegenüber einer Vielzahl von Jailbreak-Angriffen und schädlichen Prompts außerhalb der Verteilung signifikant verbessern und die durchschnittliche Schadensrate um 9,6 % senken, während die allgemeinen Fähigkeiten erhalten bleiben. Unsere Analyse zeigt, wie SafeKey die Sicherheit durch die Umgestaltung der internen Aufmerksamkeit und die Verbesserung der Qualität der verborgenen Repräsentationen erhöht.
Prozess-Belohnungsmodelle (PRMs), die schrittweise Rückmeldungen zu den von großen Sprachmodellen (LLMs) generierten Schlussfolgerungen liefern, erhalten zunehmend Aufmerksamkeit. Allerdings bestehen weiterhin zwei zentrale Forschungslücken: Die Sammlung genauer Fehlerlabels auf Schrittebene für das Training erfordert in der Regel kostspielige menschliche Annotation, und bestehende PRMs beschränken sich auf mathematische Schlussfolgerungsprobleme. Als Antwort auf diese Lücken zielt dieser Artikel darauf ab, die Herausforderungen der automatischen Datensatzerstellung und der Generalisierung von PRMs auf vielfältige Schlussfolgerungsaufgaben zu adressieren. Um dieses Ziel zu erreichen, schlagen wir FoVer vor, einen Ansatz zur Schulung von PRMs anhand von Schrittebene-Fehlerlabels, die automatisch durch formale Verifikationstools wie Z3 für formale Logik und Isabelle für Theorembeweise annotiert werden. Diese Tools bieten eine automatische und genaue Verifikation für symbolische Aufgaben. Mit diesem Ansatz synthetisieren wir einen Trainingsdatensatz mit Fehlerlabels für LLM-Antworten zu Aufgaben der formalen Logik und Theorembeweise ohne menschliche Annotation. Obwohl diese Datensynthese nur für Aufgaben möglich ist, die mit formaler Verifikation kompatibel sind, beobachten wir, dass auf unserem Datensatz trainierte LLM-basierte PRMs eine übergreifende Generalisierung zeigen und die Verifikation über verschiedene Schlussfolgerungsaufgaben hinweg verbessern. Insbesondere übertreffen mit FoVer trainierte PRMs die Baseline-PRMs, die auf den ursprünglichen LLMs basieren, deutlich und erzielen wettbewerbsfähige oder überlegene Ergebnisse im Vergleich zu state-of-the-art PRMs, die mit von Menschen oder stärkeren Modellen annotierten Labels trainiert wurden. Dies wird durch die Schrittebene-Verifikation auf ProcessBench und die Best-of-K-Leistung über 12 Schlussfolgerungs-Benchmarks, darunter MATH, AIME, ANLI, MMLU und BBH, gemessen. Die Datensätze, Modelle und der Code sind unter https://github.com/psunlpgroup/FoVer verfügbar.
Hochwertige maschinelle Übersetzungssysteme, die auf großen Sprachmodellen (LLMs) basieren, haben die Erstellung personalisierter Übersetzungen, die spezifische stilistische Anforderungen widerspiegeln, vereinfacht. Dennoch stoßen diese Systeme in Kontexten an ihre Grenzen, in denen stilistische Vorgaben weniger explizit sind und möglicherweise schwerer durch Prompting vermittelt werden können. Wir untersuchen verschiedene Strategien zur Personalisierung von LLM-generierten Übersetzungen in ressourcenarmen Umgebungen, wobei wir uns auf den anspruchsvollen Bereich der literarischen Übersetzung konzentrieren. Wir erforschen Prompting-Strategien und Interventionen zur Laufzeit, um die Modellgenerationen in Richtung eines personalisierten Stils zu lenken, und schlagen ein kontrastives Framework vor, das latente Konzepte aus spärlichen Autoencodern nutzt, um relevante Personalisierungseigenschaften zu identifizieren. Unsere Ergebnisse zeigen, dass das Lenken eine starke Personalisierung erreicht, während die Übersetzungsqualität erhalten bleibt. Darüber hinaus untersuchen wir die Auswirkungen des Lenkens auf die Repräsentationen der LLMs und stellen fest, dass Modellschichten, die einen relevanten Einfluss auf die Personalisierung haben, sowohl durch Multi-Shot-Prompting als auch durch unsere Lenkmethode ähnlich beeinflusst werden, was auf ähnliche zugrunde liegende Mechanismen hindeutet.
Die Bewertung der Textgenerierungsfähigkeiten großer Sprachmodelle (LLMs) ist eine Herausforderung, insbesondere für ressourcenarme Sprachen, in denen Methoden zur direkten Bewertung rar sind. Wir schlagen MUG-Eval vor, ein neuartiges Framework, das die multilingualen Generierungsfähigkeiten von LLMs bewertet, indem bestehende Benchmarks in Konversationsaufgaben umgewandelt und die Genauigkeiten der LLMs bei diesen Aufgaben gemessen werden. Wir haben diese Konversationsaufgaben speziell so gestaltet, dass sie eine effektive Kommunikation in der Zielsprache erfordern. Anschließend verwenden wir einfach die Erfolgsrate der Aufgabe als Indikator für eine erfolgreiche Konversationsgenerierung. Unser Ansatz bietet zwei wesentliche Vorteile: Er ist unabhängig von sprachspezifischen NLP-Tools oder annotierten Datensätzen, die für die meisten Sprachen begrenzt sind, und er verlässt sich nicht auf LLMs-als-Bewerter, deren Bewertungsqualität außerhalb einiger ressourcenreicher Sprachen abnimmt. Wir bewerten 8 LLMs in 30 Sprachen, die ressourcenreiche, mittlere und ressourcenarme Kategorien abdecken, und stellen fest, dass MUG-Eval stark mit etablierten Benchmarks korreliert (r > 0,75), während es standardisierte Vergleiche über Sprachen und Modelle hinweg ermöglicht. Unser Framework bietet eine robuste und ressourceneffiziente Lösung für die Bewertung multilingualer Generierung, die auf Tausende von Sprachen erweitert werden kann.
Wir schlagen RoPECraft vor, eine trainingsfreie Methode zur Videobewegungsübertragung für Diffusionstransformatoren, die ausschließlich durch die Modifikation ihrer rotatorischen Positions-Einbettungen (RoPE) arbeitet. Zunächst extrahieren wir den dichten optischen Fluss aus einem Referenzvideo und nutzen die resultierenden Bewegungsverschiebungen, um die komplex-exponentiellen Tensoren der RoPE zu verzerren, wodurch die Bewegung effektiv in den Generierungsprozess kodiert wird. Diese Einbettungen werden dann während der Rauschunterdrückungsschritte weiter optimiert, indem eine Trajektorienausrichtung zwischen den vorhergesagten und den Zielgeschwindigkeiten mithilfe eines Flussabgleichs-Ziels durchgeführt wird. Um die Ausgabe treu zum Textprompt zu halten und doppelte Generierungen zu verhindern, integrieren wir einen Regularisierungsterm, der auf den Phasenkomponenten der Fourier-Transformation des Referenzvideos basiert. Dabei werden die Phasenwinkel auf eine glatte Mannigfaltigkeit projiziert, um hochfrequente Artefakte zu unterdrücken. Experimente auf Benchmark-Datensätzen zeigen, dass RoPECraft alle kürzlich veröffentlichten Methoden sowohl qualitativ als auch quantitativ übertrifft.
Die metaphorische Interpretation von Bildern bleibt eine entscheidende Herausforderung für KI-Systeme, da bestehende Modelle Schwierigkeiten haben, die subtilen kulturellen, emotionalen und kontextuellen Implikationen in visuellen Inhalten zu erfassen. Während multimodale große Sprachmodelle (MLLMs) bei grundlegenden Visual Question Answer (VQA)-Aufgaben hervorragende Leistungen erbringen, stoßen sie bei Aufgaben zur Bildimplikation auf eine grundlegende Einschränkung: kontextuelle Lücken, die die Beziehungen zwischen verschiedenen visuellen Elementen und ihren abstrakten Bedeutungen verschleiern. Inspiriert vom menschlichen kognitiven Prozess schlagen wir Let Androids Dream (LAD) vor, ein neuartiges Framework zum Verständnis und zur Schlussfolgerung von Bildimplikationen. LAD adressiert kontextuelle Lücken durch ein dreistufiges Framework: (1) Wahrnehmung: Umwandlung visueller Informationen in reichhaltige und mehrstufige textuelle Repräsentationen, (2) Suche: iteratives Suchen und Integrieren von domänenübergreifendem Wissen zur Auflösung von Mehrdeutigkeiten und (3) Schlussfolgerung: Erzeugung von kontextangepassten Bildimplikationen durch explizite Schlussfolgerungen. Unser Framework mit dem leichtgewichtigen GPT-4o-mini-Modell erreicht im Vergleich zu über 15 MLLMs Spitzenleistungen auf dem englischen Benchmark für Bildimplikationen und eine deutliche Verbesserung auf dem chinesischen Benchmark, wobei es auf Multiple-Choice Question (MCQ) vergleichbar mit dem GPT-4o-Modell abschneidet und bei Open-Style Question (OSQ) um 36,7 % übertrifft. Darüber hinaus liefert unsere Arbeit neue Erkenntnisse darüber, wie KI Bildimplikationen effektiver interpretieren kann, und trägt so zur Weiterentwicklung der Bild-Sprache-Schlussfolgerung und der Mensch-KI-Interaktion bei. Unser Projekt ist öffentlich verfügbar unter https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
Können große Sprachmodelle (LLMs) ihre Fehler eingestehen, wenn sie es besser wissen sollten? In dieser Arbeit definieren wir das Verhalten, Fehler in zuvor generierten Antworten anzuerkennen, als „Rücknahme“ und zielen darauf ab, zu verstehen, wann und warum LLMs sich dazu entscheiden, eine Antwort zurückzunehmen. Zunächst erstellen wir modellspezifische Datensätze, um zu bewerten, ob ein Modell eine falsche Antwort zurücknimmt, die seinem eigenen parametrischen Wissen widerspricht. Obwohl LLMs in der Lage sind, Antworten zurückzunehmen, tun sie dies nur selten. Wir zeigen, dass die Rücknahme eng mit zuvor identifizierten Indikatoren für die internen Überzeugungen der Modelle verbunden ist: Modelle nehmen falsche Antworten nicht zurück, die sie als faktisch korrekt „glauben“. Steuerungsexperimente zeigen weiter, dass die internen Überzeugungen die Rücknahme des Modells kausal beeinflussen. Insbesondere wenn das Modell seine Antwort nicht glaubt, ermutigt dies das Modell nicht nur, die Antwort zu überprüfen, sondern verändert auch das Aufmerksamkeitsverhalten während der Selbstüberprüfung. Schließlich zeigen wir, dass einfaches überwachtes Feinabstimmen die Rücknahmeleistung signifikant verbessert, indem es dem Modell hilft, genauere interne Überzeugungen zu erlernen. Code und Datensätze sind verfügbar unter https://github.com/ayyyq/llm-retraction.
Vision-Language Models (VLMs) erwerben Wissen über die reale Welt und allgemeine Fähigkeiten zur logischen Schlussfolgerung durch internetgroße Bild-Text-Korpora. Sie können Robotersysteme mit Szenenverständnis und Aufgabenplanung erweitern und visuomotorische Strategien unterstützen, die auf Roboter-Trajektorien-Daten trainiert werden. Wir untersuchen das umgekehrte Paradigma – die Verwendung von umfangreichen, realen, multimodalen Roboter-Trajektorien-Daten zur Verbesserung und Bewertung von VLMs. In diesem Artikel stellen wir Robo2VLM vor, ein Framework zur Generierung von Visual Question Answering (VQA)-Datensätzen für VLMs. Basierend auf einer menschlich teleoperierten Roboter-Trajektorie leitet Robo2VLM Ground-Truth-Daten aus nicht-visuellen und nicht-deskriptiven sensorischen Modalitäten ab, wie Endeffektor-Position, Greiferöffnung und Kraftsensorik. Anhand dieser Modalitäten segmentiert es die Roboter-Trajektorie in eine Abfolge von Manipulationsphasen. In jeder Phase nutzt Robo2VLM Szenen- und Interaktionsverständnis, um 3D-Eigenschaften des Roboters, das Aufgaben-Ziel und das Zielobjekt zu identifizieren. Diese Eigenschaften werden verwendet, um repräsentative VQA-Abfragen zu generieren – Bilder mit textbasierten Multiple-Choice-Fragen – basierend auf räumlichen, zielbedingten und interaktionsbezogenen Fragevorlagen. Wir haben Robo2VLM-1 kuratiert, einen groß angelegten Datensatz aus der Praxis mit 684.710 Fragen, die 463 verschiedene Szenen und 3.396 Roboter-Manipulationsaufgaben aus 176.000 realen Roboter-Trajektorien abdecken. Die Ergebnisse deuten darauf hin, dass Robo2VLM-1 die Fähigkeiten von VLMs in Bezug auf räumliches und interaktives Schlussfolgern bewerten und verbessern kann.
Trotz bedeutender Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision Language Models, LVLMs) besteht weiterhin eine Lücke, insbesondere in Bezug auf ihre Interpretierbarkeit und wie sie Textinformationen in Bildern lokalisieren und interpretieren. In diesem Artikel untersuchen wir verschiedene LVLMs, um die spezifischen Köpfe zu identifizieren, die für die Erkennung von Text in Bildern verantwortlich sind, die wir als Optical Character Recognition Head (OCR Head) bezeichnen. Unsere Erkenntnisse zu diesen Köpfen sind wie folgt: (1) Weniger spärlich: Im Gegensatz zu früheren Retrieval-Köpfen wird eine große Anzahl von Köpfen aktiviert, um Textinformationen aus Bildern zu extrahieren. (2) Qualitativ unterschiedlich: OCR-Köpfe besitzen Eigenschaften, die sich deutlich von allgemeinen Retrieval-Köpfen unterscheiden und eine geringe Ähnlichkeit in ihren Merkmalen aufweisen. (3) Statisch aktiviert: Die Aktivierungshäufigkeit dieser Köpfe stimmt eng mit ihren OCR-Werten überein. Wir validieren unsere Erkenntnisse in nachgelagerten Aufgaben, indem wir Chain-of-Thought (CoT) sowohl auf OCR- als auch auf konventionelle Retrieval-Köpfe anwenden und diese Köpfe maskieren. Wir zeigen auch, dass die Umverteilung von Sink-Token-Werten innerhalb der OCR-Köpfe die Leistung verbessert. Diese Einblicke ermöglichen ein tieferes Verständnis der internen Mechanismen, die LVLMs bei der Verarbeitung eingebetteter Textinformationen in Bildern verwenden.
Da Vision-Language-Modelle (VLMs) zunehmend in den Alltag integriert werden, wird das Bedürfnis nach einem genauen Verständnis visueller Kultur immer kritischer. Dennoch scheitern diese Modelle häufig daran, kulturelle Nuancen effektiv zu interpretieren. Frühere Arbeiten haben die Wirksamkeit von Retrieval-Augmented Generation (RAG) zur Verbesserung des kulturellen Verständnisses in rein textbasierten Kontexten gezeigt, während ihre Anwendung in multimodalen Szenarien noch unzureichend erforscht ist. Um diese Lücke zu schließen, stellen wir RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding) vor, einen neuen Benchmark, der das Verständnis visueller Kultur durch Retrieval fördern soll, mit Fokus auf zwei Aufgaben: kulturbezogenes visuelles Frage-Antworten (cVQA) und kulturinformierte Bildbeschreibung (cIC). RAVENEA erweitert bestehende Datensätze durch die Integration von über 10.000 Wikipedia-Dokumenten, die von menschlichen Annotatoren kuratiert und bewertet wurden. Mit RAVENEA trainieren und evaluieren wir sieben multimodale Retriever für jede Bildanfrage und messen die Auswirkungen retrieval-augmentierter Eingaben auf vierzehn state-of-the-art VLMs. Unsere Ergebnisse zeigen, dass leichte VLMs, wenn sie mit kulturbewusstem Retrieval angereichert werden, ihre nicht-angereicherten Gegenstücke übertreffen (um mindestens 3,2 % absolut bei cVQA und 6,2 % absolut bei cIC). Dies unterstreicht den Wert von retrieval-augmentierten Methoden und kulturell inklusiven Benchmarks für multimodales Verständnis.
Moderne BPE-Tokenizer teilen Kalenderdaten oft in bedeutungslose Fragmente auf, z. B. 20250312 → 202, 503, 12, was die Tokenanzahl erhöht und die zugrunde liegende Struktur, die für robustes zeitliches Schließen erforderlich ist, verschleiert. In dieser Arbeit (1) führen wir eine einfache, aber interpretierbare Metrik ein, das sogenannte Datumsfragmentierungsverhältnis, das misst, wie treu ein Tokenizer mehrstellige Datumskomponenten bewahrt; (2) veröffentlichen wir DateAugBench, eine Sammlung von 6500 Beispielen, die drei Aufgaben des zeitlichen Schließens abdecken: kontextbasierte Datumsauflösung, formatunabhängige Rätsel und Datumsarithmetik über historische, zeitgenössische und zukünftige Zeiträume; und (3) decken wir durch schichtenweise Analysen und kausale Aufmerksamkeits-Hop-Analysen einen emergenten Datumsabstraktionsmechanismus auf, bei dem große Sprachmodelle die Fragmente von Monats-, Tages- und Jahreskomponenten für das zeitliche Schließen zusammensetzen. Unsere Experimente zeigen, dass übermäßige Fragmentierung mit Genauigkeitseinbußen von bis zu 10 Punkten bei ungewöhnlichen Daten wie historischen und futuristischen Daten korreliert. Weiterhin stellen wir fest, dass je größer das Modell ist, desto schneller die emergente Datumsabstraktion, die Datumsfragmente heilt, erreicht wird. Schließlich beobachten wir einen Schließpfad, dem LLMs folgen, um Datumsfragmente zusammenzusetzen, der sich typischerweise von der menschlichen Interpretation unterscheidet (Jahr → Monat → Tag).
Wir stellen einen neuartigen Datensatz vor, der darauf abzielt, die physikalischen und räumlichen Denkfähigkeiten von Large Language Models (LLMs) anhand von Topologieoptimierung zu bewerten, einer Methode zur Berechnung optimaler Materialverteilungen innerhalb eines Designraums unter vorgegebenen Lasten und Auflagerbedingungen. In diesem Datensatz erhalten LLMs Bedingungen wie 2D-Randbedingungen, wirkende Kräfte und Auflager und müssen die daraus resultierende optimale Materialverteilung ableiten. Der Datensatz umfasst eine Vielzahl von Aufgaben, die vom Ausfüllen maskierter Bereiche in Teilstrukturen bis zur Vorhersage vollständiger Materialverteilungen reichen. Die Lösung dieser Aufgaben erfordert ein Verständnis des Kraftflusses und der erforderlichen Materialverteilung unter gegebenen Randbedingungen, ohne Zugriff auf Simulationstools oder explizite physikalische Modelle, wodurch die Modelle dazu herausgefordert werden, über strukturelle Stabilität und räumliche Organisation zu schlussfolgern. Unser Datensatz zielt auf die Bewertung räumlicher und physikalischer Denkfähigkeiten in 2D-Szenarien ab und bietet eine komplementäre Perspektive zu traditionellen Sprach- und Logik-Benchmarks.
Durch das Vortrainieren zur Synthese kohärenter Bilder aus gestörten Eingaben lernen generative Modelle inhärent, Objektgrenzen und Szenenkompositionen zu verstehen. Wie können wir diese generativen Repräsentationen für die allgemeine Wahrnehmungsorganisation nutzbar machen? Wir feintunen Stable Diffusion und MAE (Encoder+Decoder) für kategorie-agnostische Instanzsegmentierung unter ausschließlicher Verwendung unseres Instanzfärbungsverlusts auf einer engen Auswahl von Objekttypen (Inneneinrichtung und Autos). Überraschenderweise zeigen unsere Modelle eine starke Zero-Shot-Generalisierung und segmentieren präzise Objekte von Typen und Stilen, die während des Feintunings (und in vielen Fällen auch während des ImageNet-1K-Vortrainings von MAE) nicht gesehen wurden. Unsere leistungsstärksten Modelle nähern sich dem stark überwachten SAM stark an, wenn sie auf unbekannte Objekttypen und -stile evaluiert werden, und übertreffen ihn bei der Segmentierung feiner Strukturen und ambiger Grenzen. Im Gegensatz dazu scheitern bestehende promptfähige Segmentierungsarchitekturen oder diskriminativ vortrainierte Modelle an der Generalisierung. Dies deutet darauf hin, dass generative Modelle einen inhärenten Gruppierungsmechanismus lernen, der sich über Kategorien und Domänen hinweg überträgt, selbst ohne internetweites Vortraining. Code, vortrainierte Modelle und Demos sind auf unserer Website verfügbar.
Große Audio-Sprachmodelle (LALMs) erweitern die großen Sprachmodelle um multimodales Verständnis in den Bereichen Sprache, Audio usw. Während ihre Leistungen bei Sprach- und Audioverarbeitungsaufgaben umfassend untersucht wurden, bleiben ihre Fähigkeiten zum logischen Schlussfolgern weitgehend unerforscht. Insbesondere ihr Multi-Hop-Reasoning, also die Fähigkeit, mehrere Fakten abzurufen und zu integrieren, wurde bisher nicht systematisch bewertet. Bestehende Benchmarks konzentrieren sich auf allgemeine Sprach- und Audioverarbeitungsaufgaben, Konversationsfähigkeiten und Fairness, vernachlässigen jedoch diesen Aspekt. Um diese Lücke zu schließen, stellen wir SAKURA vor, einen Benchmark, der das Multi-Hop-Reasoning von LALMs auf der Grundlage von Sprach- und Audioinformationen bewertet. Die Ergebnisse zeigen, dass LALMs Schwierigkeiten haben, Sprach-/Audio-Repräsentationen für Multi-Hop-Reasoning zu integrieren, selbst wenn sie die relevanten Informationen korrekt extrahieren. Dies verdeutlicht eine grundlegende Herausforderung im multimodalen Reasoning. Unsere Erkenntnisse offenbaren eine kritische Einschränkung in LALMs und bieten Einblicke sowie Ressourcen für zukünftige Forschung.