Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das logische Denken liegt im Kern der Intelligenz und prägt die Fähigkeit, Entscheidungen zu treffen, Schlussfolgerungen zu ziehen und über verschiedene Domänen hinweg zu generalisieren. In der künstlichen Intelligenz wird das logische Denken zunehmend essenziell, da Systeme in offenen, unsicheren und multimodalen Umgebungen operieren, um robustes und adaptives Verhalten zu ermöglichen. Große Multimodale Reasoning-Modelle (LMRMs) haben sich als vielversprechendes Paradigma herausgestellt, das Modalitäten wie Text, Bilder, Audio und Video integriert, um komplexe Denkfähigkeiten zu unterstützen und eine umfassende Wahrnehmung, präzises Verständnis und tiefes logisches Denken anzustreben. Mit dem Fortschritt der Forschung hat sich das multimodale Denken schnell von modularen, wahrnehmungsgesteuerten Pipelines zu einheitlichen, sprachzentrierten Frameworks entwickelt, die ein kohärenteres cross-modales Verständnis bieten. Während Instruction Tuning und Reinforcement Learning das Modell-Denken verbessert haben, bestehen weiterhin erhebliche Herausforderungen in der omni-modalen Generalisierung, der Tiefe des logischen Denkens und dem agentenbasierten Verhalten. Um diese Probleme anzugehen, präsentieren wir eine umfassende und strukturierte Übersicht über die Forschung zum multimodalen Denken, die entlang eines vierstufigen Entwicklungsplans organisiert ist, der die sich wandelnden Designphilosophien und aufkommenden Fähigkeiten des Feldes widerspiegelt. Zunächst betrachten wir frühe Ansätze, die auf aufgabenspezifischen Modulen basieren, bei denen das logische Denken implizit über die Stadien der Repräsentation, Ausrichtung und Fusion eingebettet war. Anschließend untersuchen wir neuere Ansätze, die das logische Denken in multimodale LLMs integrieren, wobei Fortschritte wie Multimodale Chain-of-Thought (MCoT) und multimodales Reinforcement Learning reichere und strukturiertere Denkketten ermöglichen. Schließlich diskutieren wir, basierend auf empirischen Erkenntnissen aus anspruchsvollen Benchmarks und experimentellen Fällen wie OpenAI O3 und O4-mini, die konzeptionelle Ausrichtung nativer großer multimodaler Reasoning-Modelle (N-LMRMs), die skalierbares, agentenbasiertes und adaptives Denken und Planen in komplexen, realen Umgebungen unterstützen sollen.
Wir präsentieren Flow-GRPO, die erste Methode, die Online-Reinforcement-Learning (RL) in Flow-Matching-Modelle integriert. Unser Ansatz verwendet zwei Schlüsselstrategien: (1) eine ODE-zu-SDE-Konvertierung, die eine deterministische gewöhnliche Differentialgleichung (ODE) in eine äquivalente stochastische Differentialgleichung (SDE) umwandelt, die die Randverteilung des ursprünglichen Modells zu allen Zeitpunkten abbildet und damit statistisches Sampling für die RL-Exploration ermöglicht; und (2) eine Denoising-Reduktionsstrategie, die die Trainings-Denoising-Schritte reduziert, während die ursprüngliche Anzahl der Inferenz-Zeitschritte beibehalten wird, was die Sampling-Effizienz erheblich verbessert, ohne die Leistung zu beeinträchtigen. Empirisch zeigt sich Flow-GRPO in mehreren Text-zu-Bild-Aufgaben als effektiv. Für komplexe Kompositionen generiert das RL-optimierte SD3.5 nahezu perfekte Objektanzahlen, räumliche Beziehungen und fein abgestufte Attribute, wodurch die GenEval-Genauigkeit von 63 % auf 95 % steigt. Bei der visuellen Textdarstellung verbessert sich die Genauigkeit von 59 % auf 92 %, was die Textgenerierung erheblich verbessert. Flow-GRPO erzielt auch deutliche Fortschritte in der Ausrichtung auf menschliche Präferenzen. Bemerkenswerterweise trat kaum oder gar kein Reward-Hacking auf, was bedeutet, dass die Belohnungen nicht auf Kosten der Bildqualität oder -vielfalt erhöht wurden und beide in unseren Experimenten stabil blieben.
Wir stellen LegoGPT vor, den ersten Ansatz zur Erzeugung physikalisch stabiler LEGO-Modelle aus Textanfragen. Um dies zu erreichen, erstellen wir einen umfangreichen Datensatz physikalisch stabiler LEGO-Designs zusammen mit den dazugehörigen Beschreibungen und trainieren ein autoregressives großes Sprachmodell, um den nächsten hinzuzufügenden Stein über Next-Token-Vorhersage zu bestimmen. Um die Stabilität der resultierenden Designs zu verbessern, setzen wir während der autoregressiven Inferenz eine effiziente Gültigkeitsprüfung und einen physikbewussten Rollback ein, der unzulässige Token-Vorhersagen mithilfe physikalischer Gesetze und Montagebeschränkungen aussortiert. Unsere Experimente zeigen, dass LegoGPT stabile, vielfältige und ästhetisch ansprechende LEGO-Designs erzeugt, die eng mit den Eingabetextanfragen übereinstimmen. Wir entwickeln außerdem eine textbasierte LEGO-Texturierungsmethode, um farbige und texturierte Designs zu generieren. Wir zeigen, dass unsere Designs sowohl manuell von Menschen als auch automatisch von Roboterarmen zusammengesetzt werden können. Zudem veröffentlichen wir unseren neuen Datensatz, StableText2Lego, der über 47.000 LEGO-Strukturen von mehr als 28.000 einzigartigen 3D-Objekten mit detaillierten Beschreibungen enthält, sowie unseren Code und unsere Modelle auf der Projektwebsite: https://avalovelace1.github.io/LegoGPT/.
Die Bewertung, wie gut ein großes Sprachmodell (LLM) den Menschen versteht, anstatt lediglich Text, bleibt eine offene Herausforderung. Um diese Lücke zu schließen, führen wir Sentient Agent as a Judge (SAGE) ein, ein automatisiertes Bewertungsframework, das die höhere soziale Kognition eines LLM misst. SAGE instanziiert einen Sentient Agent, der menschliche emotionale Veränderungen und innere Gedanken während der Interaktion simuliert und so eine realistischere Bewertung des getesteten Modells in mehrschrittigen Gesprächen ermöglicht. In jedem Schritt analysiert der Agent (i) wie sich seine Emotion verändert, (ii) wie er sich fühlt und (iii) wie er antworten sollte, wodurch eine numerische Emotionskurve und interpretierbare innere Gedanken entstehen. Experimente mit 100 unterstützenden Dialog-Szenarien zeigen, dass der finale Sentient-Emotionsscore stark mit den Bewertungen des Barrett-Lennard Relationship Inventory (BLRI) und Äußerungs-Empathie-Metriken korreliert, was die psychologische Treue bestätigt. Wir erstellen zudem eine öffentliche Sentient Leaderboard, die 18 kommerzielle und Open-Source-Modelle abdeckt und erhebliche Lücken (bis zu 4x) zwischen führenden Systemen (GPT-4o-Latest, Gemini2.5-Pro) und früheren Baselines aufdeckt, die in konventionellen Leaderboards (z.B. Arena) nicht sichtbar sind. SAGE bietet somit ein prinzipielles, skalierbares und interpretierbares Werkzeug, um den Fortschritt hin zu wirklich empathischen und sozial kompetenten Sprachagenten zu verfolgen.
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fortschritte bei komplexen Aufgaben erzielt, indem sie ausgedehnte Gedankenketten (Chain of Thought, CoT) generieren. Ihre unkontrollierten Ausgabelängen stellen jedoch erhebliche Herausforderungen für den praktischen Einsatz dar, insbesondere wenn Inferenzzeitbudgets in Bezug auf Token, Latenz oder Rechenleistung streng begrenzt sind. Wir schlagen Elastic Reasoning vor, ein neuartiges Framework für skalierbare Gedankenketten, das das Reasoning explizit in zwei Phasen unterteilt – Denken und Lösung – mit unabhängig zugewiesenen Budgets. Zum Testzeitpunkt priorisiert Elastic Reasoning die Vollständigkeit der Lösungssegmente und verbessert so die Zuverlässigkeit unter strengen Ressourcenbeschränkungen erheblich. Um Modelle zu trainieren, die robust gegenüber abgebrochenem Denken sind, führen wir eine leichtgewichtige, budgetbeschränkte Rollout-Strategie ein, die in GRPO integriert ist. Diese lehrt das Modell, adaptiv zu schlussfolgern, wenn der Denkprozess vorzeitig abgebrochen wird, und verallgemeinert effektiv auf unbekannte Budgetbeschränkungen ohne zusätzliches Training. Empirische Ergebnisse auf mathematischen (AIME, MATH500) und Programmier-Benchmarks (LiveCodeBench, Codeforces) zeigen, dass Elastic Reasoning unter strengen Budgetbeschränkungen robust abschneidet, während es deutlich geringere Trainingskosten als Baseline-Methoden verursacht. Bemerkenswerterweise erzeugt unser Ansatz auch in unbegrenzten Umgebungen prägnanteres und effizienteres Reasoning. Elastic Reasoning bietet eine prinzipielle und praktische Lösung für die dringende Herausforderung des kontrollierbaren Reasonings im großen Maßstab.
Die 3D-Szenengenerierung zielt darauf ab, räumlich strukturierte, semantisch bedeutungsvolle und fotorealistische Umgebungen für Anwendungen wie immersive Medien, Robotik, autonomes Fahren und verkörperte KI zu synthetisieren. Frühe Methoden, die auf prozeduralen Regeln basierten, boten Skalierbarkeit, jedoch nur begrenzte Vielfalt. Jüngste Fortschritte bei tiefen generativen Modellen (z.B. GANs, Diffusionsmodelle) und 3D-Darstellungen (z.B. NeRF, 3D-Gaußsche) haben das Lernen von realen Szenenverteilungen ermöglicht, wodurch die Detailtreue, Vielfalt und Blickkonsistenz verbessert wurden. Neuere Entwicklungen wie Diffusionsmodelle verbinden die 3D-Szenensynthese und den Fotorealismus, indem sie die Generierung als Bild- oder Videosyntheseprobleme neu formulieren. Dieser Überblick bietet eine systematische Zusammenfassung der modernsten Ansätze, die in vier Paradigmen organisiert werden: prozedurale Generierung, neuronale 3D-basierte Generierung, bildbasierte Generierung und videobasierte Generierung. Wir analysieren ihre technischen Grundlagen, Kompromisse und repräsentativen Ergebnisse und überprüfen häufig verwendete Datensätze, Bewertungsprotokolle und nachgelagerte Anwendungen. Abschließend diskutieren wir die wichtigsten Herausforderungen in Bezug auf die Generierungskapazität, 3D-Darstellung, Daten und Annotationen sowie Bewertung und skizzieren vielversprechende Richtungen, darunter höhere Detailtreue, physikbewusste und interaktive Generierung sowie vereinheitlichte Wahrnehmungs-Generierungs-Modelle. Diese Übersicht ordnet die jüngsten Fortschritte in der 3D-Szenengenerierung und hebt vielversprechende Richtungen an der Schnittstelle von generativer KI, 3D-Vision und verkörperter Intelligenz hervor. Um die laufenden Entwicklungen zu verfolgen, pflegen wir eine aktuelle Projektseite: https://github.com/hzxie/Awesome-3D-Scene-Generation.
Contrastive Language-Image Pre-training (CLIP) zeichnet sich bei multimodalen Aufgaben wie der Bild-Text-Retrieval und der Zero-Shot-Klassifikation aus, hat jedoch Schwierigkeiten mit dem feinkörnigen Verständnis, da es sich auf grobkörnige, kurze Bildbeschreibungen konzentriert. Um dies zu beheben, schlagen wir Fine-Grained CLIP (FG-CLIP) vor, das das feinkörnige Verständnis durch drei wesentliche Innovationen verbessert. Erstens nutzen wir große multimodale Modelle, um 1,6 Milliarden lange Bildbeschreibungs-Bild-Paare zu generieren, die globale semantische Details erfassen. Zweitens wird ein hochwertiger Datensatz mit 12 Millionen Bildern und 40 Millionen regionsspezifischen Begrenzungsrahmen erstellt, die mit detaillierten Bildbeschreibungen abgeglichen sind, um präzise, kontextreiche Darstellungen zu gewährleisten. Drittens werden 10 Millionen schwierige feinkörnige negative Beispiele integriert, um die Fähigkeit des Modells zu verbessern, subtile semantische Unterschiede zu erkennen. Entsprechende Trainingsmethoden wurden sorgfältig für diese Daten entwickelt. Umfangreiche Experimente zeigen, dass FG-CLIP das ursprüngliche CLIP und andere state-of-the-art Methoden bei verschiedenen Downstream-Aufgaben übertrifft, darunter feinkörniges Verständnis, Open-Vocabulary-Objekterkennung, Bild-Text-Retrieval und allgemeine multimodale Benchmarks. Diese Ergebnisse unterstreichen die Effektivität von FG-CLIP bei der Erfassung feinkörniger Bilddetails und der Verbesserung der Gesamtleistung des Modells. Die zugehörigen Daten, Code und Modelle sind unter https://github.com/360CVGroup/FG-CLIP verfügbar.
Aktuelle proprietäre Modelle (z. B. o3) haben begonnen, starke multimodale Fähigkeiten im Bereich des logischen Denkens zu demonstrieren. Dennoch konzentriert sich die Mehrheit der bestehenden Open-Source-Forschung auf das Training von Modellen, die ausschließlich auf Text basieren, wobei die Evaluierungen hauptsächlich auf mathematische und allgemeine Aufgaben beschränkt sind. Daher bleibt unklar, wie man die Fähigkeiten des logischen Denkens effektiv über Texteingaben und allgemeine Domänen hinaus erweitern kann. Diese Arbeit untersucht eine grundlegende Forschungsfrage: Ist logisches Denken über Modalitäten und Domänen hinweg verallgemeinerbar? Unsere Ergebnisse unterstützen eine bejahende Antwort: Nachträgliches Training auf allgemeinen Textdaten kann ein solch starkes verallgemeinerbares Denken ermöglichen. Basierend auf dieser Erkenntnis stellen wir X-Reasoner vor, ein Vision-Sprache-Modell, das ausschließlich auf allgemeinen Textdaten nachtrainiert wurde, um verallgemeinerbares Denken zu ermöglichen. Dabei verwenden wir einen zweistufigen Ansatz: eine anfängliche überwachte Feinabstimmung mit destillierten langen Gedankenketten, gefolgt von bestärkendem Lernen mit überprüfbaren Belohnungen. Experimente zeigen, dass X-Reasoner erfolgreich die Fähigkeiten des logischen Denkens auf multimodale und domänenübergreifende Kontexte überträgt und dabei bestehende state-of-the-art Modelle, die mit domänenspezifischen und multimodalen Daten trainiert wurden, in verschiedenen allgemeinen und medizinischen Benchmarks übertrifft (Abbildung 1). Zusätzlich stellen wir fest, dass die Leistung von X-Reasoner in spezialisierten Domänen durch weiteres Training auf domänenspezifischen Textdaten weiter verbessert werden kann. Aufbauend darauf führen wir X-Reasoner-Med ein, eine medizinisch spezialisierte Variante, die neue Bestwerte auf zahlreichen textbasierten und multimodalen medizinischen Benchmarks erreicht.
Wir präsentieren StreamBridge, ein einfaches, aber effektives Framework, das Offline-Video-LLMs nahtlos in streamingfähige Modelle transformiert. Es adressiert zwei grundlegende Herausforderungen bei der Anpassung bestehender Modelle für Online-Szenarien: (1) die begrenzte Fähigkeit zur Echtzeit-Verarbeitung von Mehrfachinteraktionen und (2) das Fehlen proaktiver Antwortmechanismen. Konkret integriert StreamBridge (1) einen Speicherpuffer in Kombination mit einer rundenbasierten Kompressionsstrategie, die langfristige Mehrfachinteraktionen unterstützt, und (2) ein entkoppeltes, leichtgewichtiges Aktivierungsmodell, das problemlos in bestehende Video-LLMs integriert werden kann und kontinuierliche proaktive Antworten ermöglicht. Um StreamBridge weiter zu unterstützen, haben wir Stream-IT erstellt, einen umfangreichen Datensatz, der speziell für das Verständnis von Streaming-Videos entwickelt wurde und verschachtelte Video-Text-Sequenzen sowie diverse Instruktionsformate enthält. Umfangreiche Experimente zeigen, dass StreamBridge die Streaming-Verständnisfähigkeiten von Offline-Video-LLMs in verschiedenen Aufgaben signifikant verbessert und sogar proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro übertrifft. Gleichzeitig erzielt es wettbewerbsfähige oder überlegene Leistungen auf Standard-Benchmarks für das Video-Verständnis.
Wir stellen die neuartige Aufgabe des sprachgesteuerten Objektplatzierens in realen 3D-Szenen vor. Unser Modell erhält eine Punktwolke einer 3D-Szene, ein 3D-Asset und einen Textprompt, der grob beschreibt, wo das 3D-Asset platziert werden soll. Die Aufgabe besteht darin, eine gültige Platzierung für das 3D-Asset zu finden, die den Prompt berücksichtigt. Im Vergleich zu anderen sprachgesteuerten Lokalisierungsaufgaben in 3D-Szenen, wie z.B. dem Grounding, stellt diese Aufgabe spezifische Herausforderungen dar: Sie ist mehrdeutig, da sie mehrere gültige Lösungen hat, und erfordert das Nachdenken über 3D-geometrische Beziehungen und freien Raum. Wir initiieren diese Aufgabe, indem wir einen neuen Benchmark und ein Bewertungsprotokoll vorschlagen. Außerdem stellen wir einen neuen Datensatz für das Training von 3D-LLMs für diese Aufgabe sowie die erste Methode als nicht-triviale Baseline vor. Wir glauben, dass diese anspruchsvolle Aufgabe und unser neuer Benchmark Teil der Suite von Benchmarks werden könnten, die zur Bewertung und zum Vergleich von generalistischen 3D-LLM-Modellen verwendet werden.
Vorherrschende Reinforcement-Learning-(RL)-Methoden zur Feinabstimmung von LLM-Reasonern, wie GRPO oder Leave-one-out PPO, verwerfen die gelernte Wertfunktion zugunsten empirisch geschätzter Erträge. Dies behindert die Skalierung der Rechenleistung zur Testzeit, die auf die Verwendung der Wertfunktion zur Verifizierung angewiesen ist. In dieser Arbeit schlagen wir RL^V vor, das jede „wertfreie“ RL-Methode erweitert, indem es das LLM gemeinsam als Reasoner und generativen Verifizierer unter Verwendung von RL-generierten Daten trainiert und so Verifizierungsfähigkeiten ohne signifikanten Overhead hinzufügt. Empirisch steigert RL^V die MATH-Genauigkeit um über 20 % bei paralleler Stichprobenentnahme und ermöglicht eine 8-32-fach effizientere Skalierung der Rechenleistung zur Testzeit im Vergleich zur Basismethode RL. RL^V zeigt auch starke Generalisierungsfähigkeiten sowohl für einfach-schwierige als auch für domänenübergreifende Aufgaben. Darüber hinaus erzielt RL^V eine 1,2-1,6-fach höhere Leistung bei der gemeinsamen Skalierung von paralleler und sequentieller Rechenleistung zur Testzeit mit einem langen Reasoning-R1-Modell.
Die Datenauswahl für das Instruction Tuning ist entscheidend, um die Leistung von Large Language Models (LLMs) zu verbessern und die Trainingskosten zu senken. Bisherige automatisierte Auswahlmethoden basieren jedoch entweder auf rechenintensiven gradientenbasierten Maßnahmen oder manuell entworfenen Heuristiken, die möglicherweise nicht die intrinsischen Eigenschaften der Daten vollständig nutzen. In diesem Artikel schlagen wir In-context Learning for Contribution Measurement (ICon) vor, eine neuartige gradientenfreie Methode, die die implizite Feinabstimmung des In-context Learning (ICL) nutzt, um den Beitrag von Datenproben ohne Gradientenberechnung oder manuelle Indikatorenkonstruktion zu messen. ICon bietet eine recheneffiziente Alternative zu gradientenbasierten Methoden und reduziert den menschlichen induktiven Bias, der in heuristischen Ansätzen inhärent ist. ICon besteht aus drei Komponenten und identifiziert hochwertige Daten durch die Bewertung von Leistungsverschiebungen unter implizitem Lernen durch ICL. Umfangreiche Experimente mit drei LLMs über 12 Benchmarks und 5 paarweisen Evaluierungssets demonstrieren die Wirksamkeit von ICon. Bemerkenswerterweise übertreffen Modelle, die mit 15 % der von ICon ausgewählten Daten trainiert wurden, auf LLaMA3.1-8B die vollständigen Datensätze um 5,42 Prozentpunkte und übertreffen die beste Leistung weit verbreiteter Auswahlmethoden um 2,06 Prozentpunkte. Wir analysieren weiterhin hochwertige Proben, die von ICon ausgewählt wurden, und zeigen, dass diese sowohl vielfältige Aufgaben als auch angemessene Schwierigkeitsgrade aufweisen, anstatt nur die schwierigsten zu sein.
Die Fähigkeiten zur logischen Schlussfolgerung großer Sprachmodelle werden hauptsächlich für Englisch untersucht, selbst wenn vortrainierte Modelle mehrsprachig sind. In dieser Arbeit untersuchen wir, inwieweit das Feinabstimmen von englischer Schlussfolgerung mit langen Gedankenketten (Chain-of-Thoughts, CoTs) auf andere Sprachen übertragbar ist. Erstens stellen wir fest, dass die Skalierung der Inferenzrechenleistung für englischzentrierte Schlussfolgerungs-Sprachmodelle (Reasoning Language Models, RLMs) das mathematische Denken in vielen Sprachen, einschließlich ressourcenarmer Sprachen, verbessert, und zwar in einem Ausmaß, in dem sie Modelle übertreffen, die doppelt so groß sind. Zweitens zeigen wir, dass die CoTs englischzentrierter RLMs zwar überwiegend auf Englisch erfolgen, aber konsequent einem „Zitieren-und-Denken“-Muster folgen, um über zitierte nicht-englische Eingaben zu schlussfolgern. Drittens entdecken wir eine effektive Strategie, um die Sprache langer CoT-Schlussfolgerungen zu steuern, und beobachten, dass Modelle in ressourcenstarken Sprachen besser und effizienter schlussfolgern. Schließlich stellen wir eine schlechte Generalisierung der Schlussfolgerung außerhalb des Trainingsbereichs fest, insbesondere von MINT-Fächern hin zu kulturellem Allgemeinwissen, selbst für Englisch. Insgesamt demonstrieren wir die Potenziale, untersuchen die Mechanismen und skizzieren die Grenzen der sprachübergreifenden Generalisierung von englischer Schlussfolgerung durch Skalierung zur Testzeit. Wir kommen zu dem Schluss, dass Praktiker englischzentrierte RLMs in ressourcenstarken Sprachen schlussfolgern lassen sollten, während weitere Arbeiten erforderlich sind, um das Schlussfolgern in ressourcenarmen Sprachen und außerhalb des Trainingsbereichs zu verbessern.
Das Verlernen (Unlearning) bei großen Sprachmodellen (LLMs) ist in realen Anwendungen von entscheidender Bedeutung, insbesondere wenn es notwendig ist, den Einfluss privater, urheberrechtlich geschützter oder schädlicher Daten effizient zu entfernen. Allerdings können bestehende nutzenorientierte Verlernmetriken (basierend auf der Modellnutzung) in realistischen Szenarien versagen, um das Ausmaß des Verlernens genau zu bewerten. Dies gilt insbesondere, wenn (a) die zu vergessenden und zu behaltenden Datensätze semantisch ähnliche Inhalte aufweisen, (b) das erneute Trainieren des Modells von Grund auf mit dem zu behaltenden Datensatz unpraktikabel ist und/oder (c) der Modellbetreiber die Verlernmetrik verbessern kann, ohne direkt ein Verlernen im LLM durchzuführen. In diesem Artikel stellen wir die erste datenzentrierte Verlernmetrik für LLMs namens WaterDrum vor, die robuste Textwasserzeichen nutzt, um diese Einschränkungen zu überwinden. Wir führen außerdem neue Benchmark-Datensätze für das Verlernen von LLMs ein, die unterschiedliche Grade ähnlicher Datenpunkte enthalten und zur rigorosen Bewertung von Verlernalgorithmen mit WaterDrum verwendet werden können. Unser Code ist verfügbar unter https://github.com/lululu008/WaterDrum und unsere neuen Benchmark-Datensätze sind veröffentlicht unter https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
Chain-of-Thoughts (CoT) erfordert, dass große Sprachmodelle (LLMs) Zwischenschritte generieren, bevor sie die endgültige Antwort erreichen, und hat sich als effektiv erwiesen, um LLMs bei der Lösung komplexer Denkaufgaben zu unterstützen. Der innere Mechanismus von CoT bleibt jedoch weitgehend unklar. In diesem Papier untersuchen wir empirisch die Rolle von CoT-Tokens in LLMs anhand zweier zusammengesetzter Aufgaben: mehrstellige Multiplikation und dynamische Programmierung. Obwohl CoT für die Lösung dieser Probleme unerlässlich ist, stellen wir fest, dass die Beibehaltung nur der Tokens, die Zwischenergebnisse speichern, eine vergleichbare Leistung erzielt. Darüber hinaus beobachten wir, dass die Speicherung von Zwischenergebnissen in einer alternativen latenten Form die Modellleistung nicht beeinträchtigt. Wir intervenieren auch zufällig bei einigen Werten in CoT und stellen fest, dass sich die nachfolgenden CoT-Tokens und die endgültige Antwort entsprechend ändern. Diese Erkenntnisse deuten darauf hin, dass CoT-Tokens möglicherweise wie Variablen in Computerprogrammen fungieren, jedoch mit potenziellen Nachteilen wie unbeabsichtigten Abkürzungen und Grenzen der Rechenkomplexität zwischen den Tokens. Der Code und die Daten sind unter https://github.com/solitaryzero/CoTs_are_Variables verfügbar.
Vision-Language-Action (VLA)-Modelle markieren einen bahnbrechenden Fortschritt in der künstlichen Intelligenz, indem sie darauf abzielen, Wahrnehmung, natürliches Sprachverständnis und verkörperte Aktionen in einem einzigen rechnerischen Rahmen zu vereinen. Diese grundlegende Übersichtsarbeit präsentiert eine umfassende Synthese der jüngsten Fortschritte in Vision-Language-Action-Modellen, die systematisch in fünf thematische Säulen strukturiert sind, die das Landschaftsbild dieses sich schnell entwickelnden Feldes abbilden. Wir beginnen mit der Darstellung der konzeptionellen Grundlagen von VLA-Systemen und verfolgen ihre Entwicklung von architektonischen Ansätzen des cross-modalen Lernens hin zu generalistischen Agenten, die Vision-Language-Modelle (VLMs), Aktionsplaner und hierarchische Controller eng integrieren. Unsere Methodik basiert auf einem rigorosen Literaturrecherche-Rahmen, der über 80 VLA-Modelle abdeckt, die in den letzten drei Jahren veröffentlicht wurden. Zu den zentralen Fortschrittsbereichen gehören architektonische Innovationen, parameter-effiziente Trainingsstrategien und Echtzeit-Inferenzbeschleunigungen. Wir untersuchen vielfältige Anwendungsbereiche wie humanoide Robotik, autonome Fahrzeuge, medizinische und industrielle Robotik, Präzisionslandwirtschaft und Augmented-Reality-Navigation. Die Arbeit geht zudem auf wesentliche Herausforderungen in den Bereichen Echtzeitsteuerung, multimodale Aktionsrepräsentation, Systemskalierbarkeit, Generalisierung auf unbekannte Aufgaben und ethische Risiken bei der Implementierung ein. Basierend auf dem Stand der Technik schlagen wir gezielte Lösungen vor, darunter agentische KI-Adaption, Cross-Embodiment-Generalisierung und vereinheitlichte neuro-symbolische Planung. In unserer zukunftsorientierten Diskussion skizzieren wir einen Fahrplan, in dem VLA-Modelle, VLMs und agentische KI zusammenwirken, um sozial ausgerichtete, adaptive und universelle verkörperte Agenten zu ermöglichen. Diese Arbeit dient als grundlegende Referenz für die Weiterentwicklung intelligenter, realweltlicher Robotik und der künstlichen allgemeinen Intelligenz. >Vision-Language-Action, Agentische KI, KI-Agenten, Vision-Language-Modelle
Robuste und effiziente lokale Merkmalszuordnung spielt eine entscheidende Rolle in Anwendungen wie SLAM und visueller Lokalisierung für Robotik. Trotz großer Fortschritte bleibt es sehr herausfordernd, robuste und diskriminative visuelle Merkmale in Szenarien mit drastischen Lichtveränderungen, texturarmen Bereichen oder sich wiederholenden Mustern zu extrahieren. In diesem Artikel schlagen wir ein neues leichtgewichtiges Netzwerk namens LiftFeat vor, das die Robustheit von Rohdeskriptoren durch die Aggregation von 3D-geometrischen Merkmalen erhöht. Konkret verwenden wir zunächst ein vortrainiertes monokulares Tiefenschätzungsmodell, um pseudo-Oberflächennormalen-Labels zu generieren, die die Extraktion von 3D-geometrischen Merkmalen in Bezug auf vorhergesagte Oberflächennormalen überwachen. Anschließend entwerfen wir ein 3D-geometrie-bewusstes Merkmalshebungsmodul, um Oberflächennormalenmerkmale mit rohen 2D-Deskriptormerkmalen zu fusionieren. Die Integration solcher 3D-geometrischen Merkmale verbessert die diskriminative Fähigkeit der 2D-Merkmalsbeschreibung unter extremen Bedingungen. Umfangreiche experimentelle Ergebnisse zur relativen Pose-Schätzung, Homographie-Schätzung und visuellen Lokalisierung zeigen, dass unser LiftFeat einige leichtgewichtige State-of-the-Art-Methoden übertrifft. Der Code wird unter https://github.com/lyp-deeplearning/LiftFeat veröffentlicht.
Die Ausrichtung von Sprachmodellen an menschlichen Präferenzen basiert auf paarweisen Präferenzdatensätzen. Während einige Studien darauf hindeuten, dass On-Policy-Daten durchweg bessere Ergebnisse für das Präferenzlernen liefern als Off-Policy-Daten, zeigen andere, dass die Vorteile von On-Policy-Daten aufgabenabhängig sein können, was die Notwendigkeit einer systematischen Untersuchung ihres Zusammenspiels unterstreicht. In dieser Arbeit zeigen wir, dass On-Policy- und Off-Policy-Daten komplementäre Stärken in der Präferenzoptimierung bieten: On-Policy-Daten sind besonders effektiv für Aufgaben wie Mathematik und Programmierung, während Off-Policy-Daten bei offenen Aufgaben wie kreativem Schreiben und persönlichen Empfehlungen besser abschneiden. Aufbauend auf diesen Erkenntnissen stellen wir SIMPLEMIX vor, einen Ansatz, der die komplementären Stärken von On-Policy- und Off-Policy-Präferenzlernen durch einfaches Vermischen dieser beiden Datenquellen kombiniert. Unsere empirischen Ergebnisse über verschiedene Aufgaben und Benchmarks hinweg zeigen, dass SIMPLEMIX die Ausrichtung von Sprachmodellen erheblich verbessert. Konkret übertrifft SIMPLEMIX On-Policy DPO und Off-Policy DPO im Durchschnitt um 6,03 % auf Alpaca Eval 2.0. Darüber hinaus übertrifft es frühere Ansätze, die deutlich komplexer in der Kombination von On- und Off-Policy-Daten sind, wie HyPO und DPO-Mix-P, im Durchschnitt um 3,05 %.
Da sich große Sprachmodelle (LLMs) zu werkzeugnutzenden Agenten entwickeln, ist die Fähigkeit, das Web in Echtzeit zu durchsuchen, zu einem entscheidenden Maßstab für die Bewertung ihrer Schlussfolgerungs- und Abrufkompetenz geworden. Bestehende Benchmarks wie BrowseComp konzentrieren sich auf Englisch und übersehen die sprachlichen, infrastrukturellen und zensurbedingten Komplexitäten anderer großer Informationsökosysteme – insbesondere des Chinesischen. Um diese Lücke zu schließen, führen wir BrowseComp-ZH ein, einen Benchmark mit hohem Schwierigkeitsgrad, der speziell entwickelt wurde, um LLM-Agenten umfassend auf dem chinesischen Web zu evaluieren. BrowseComp-ZH besteht aus 289 Multi-Hop-Fragen, die 11 verschiedene Domänen abdecken. Jede Frage wurde rückwärts entwickelt, basierend auf einer kurzen, objektiven und leicht überprüfbaren Antwort (z. B. einem Datum, einer Zahl oder einem Eigennamen). Ein zweistufiges Qualitätskontrollprotokoll wird angewendet, um eine hohe Fragekomplexität und Antwort-Eindeutigkeit zu gewährleisten. Wir evaluieren über 20 state-of-the-art Sprachmodelle und agentenbasierte Suchsysteme auf unserem vorgeschlagenen BrowseComp-ZH. Trotz ihrer starken Konversations- und Abruffähigkeiten kämpfen die meisten Modelle erheblich: Eine große Anzahl erreicht Genauigkeitsraten von unter 10 %, und nur wenige überschreiten 20 %. Selbst das leistungsstärkste System, OpenAIs DeepResearch, erreicht lediglich 42,9 %. Diese Ergebnisse demonstrieren die beträchtliche Schwierigkeit von BrowseComp-ZH, bei dem Erfolg nicht nur effektive Abrufstrategien, sondern auch anspruchsvolles Schlussfolgern und Informationsabgleich erfordert – Fähigkeiten, mit denen aktuelle Modelle noch immer zu kämpfen haben. Unser Datensatz, die Konstruktionsrichtlinien und die Benchmark-Ergebnisse wurden öffentlich unter https://github.com/PALIN2018/BrowseComp-ZH veröffentlicht.