Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen InternVL3 vor, einen bedeutenden Fortschritt in der InternVL-Serie, der ein natives multimodales Vortrainingsparadigma bietet. Anstatt ein textbasiertes großes Sprachmodell (LLM) in ein multimodales großes Sprachmodell (MLLM) zu adaptieren, das visuelle Eingaben unterstützt, erwirbt InternVL3 multimodale und linguistische Fähigkeiten gemeinsam aus diversen multimodalen Daten und reinen Textkorpora während einer einzigen Vortrainingsphase. Dieses einheitliche Trainingsparadigma adressiert effektiv die Komplexitäten und Ausrichtungsprobleme, die häufig in konventionellen nachträglichen Trainingspipelines für MLLMs auftreten. Um die Leistung und Skalierbarkeit weiter zu verbessern, integriert InternVL3 eine variable visuelle Positionskodierung (V2PE) zur Unterstützung erweiterter multimodaler Kontexte, verwendet fortgeschrittene Nachtrainings-Techniken wie überwachte Feinabstimmung (SFT) und gemischte Präferenzoptimierung (MPO) und setzt Testzeit-Skalierungsstrategien sowie eine optimierte Trainingsinfrastruktur ein. Umfangreiche empirische Auswertungen zeigen, dass InternVL3 überlegene Leistung in einer Vielzahl von multimodalen Aufgaben erzielt. Insbesondere erreicht InternVL3-78B eine Punktzahl von 72,2 auf dem MMMU-Benchmark und setzt damit einen neuen Maßstab unter Open-Source-MLLMs. Seine Fähigkeiten bleiben hochgradig wettbewerbsfähig mit führenden proprietären Modellen, einschließlich ChatGPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro, während es gleichzeitig eine starke rein sprachliche Kompetenz beibehält. Im Einklang mit den Prinzipien der offenen Wissenschaft werden wir sowohl die Trainingsdaten als auch die Modellgewichte öffentlich freigeben, um die weitere Forschung und Entwicklung in der nächsten Generation von MLLMs zu fördern.
Die Einführung von DeepSeek R1 und QwQ 32B hat die Leistungsgrenzen für den Betrieb von fortschrittlichen großen Sprachmodellen (LLMs) auf Heimgeräten durchbrochen. Während die Verbraucherhardware immer leistungsfähiger wird und die Modellquantisierung sich verbessert, erfordern bestehende Endgerätelösungen immer noch GPU-Cluster, großen RAM/VRAM und hohe Bandbreite, was weit über die Kapazitäten eines typischen Heimclusters hinausgeht. Dieses Papier stellt prima.cpp vor, ein verteiltes Inferenzsystem, das 70B-Modelle auf alltäglichen Heimgeräten unter Verwendung einer Mischung aus CPU/GPU, geringem RAM/VRAM, Wi-Fi und plattformübergreifender Unterstützung ausführt. Es verwendet mmap zur Verwaltung der Modellgewichte und führt piped-ring-Parallelität mit Prefetching ein, um das Laden von der Festplatte zu verbergen. Durch die Modellierung von Heterogenität in Berechnung, Kommunikation, Festplatte, Speicher (und dessen Verwaltungsverhalten) und Betriebssystem weist es die Modellschichten optimal der CPU und GPU jedes Geräts zu, wodurch die Token-Latenz weiter reduziert wird. Ein elegantes Algorithmus namens Halda wird vorgeschlagen, um dieses NP-schwere Zuordnungsproblem zu lösen. Wir evaluieren prima.cpp auf einem typischen Vier-Knoten-Heimcluster. Es übertrifft llama.cpp, exo und dllama bei 30B+-Modellen, während der Speicherdruck unter 6 % bleibt. Dies bringt fortschrittliche 30B-70B-Modelle wie Llama 3, DeepSeek R1, Qwen 2.5 und QwQ auf Heimassistenten und macht fortschrittliche KI für Einzelpersonen wirklich zugänglich. Der Code ist Open Source und verfügbar unter https://github.com/Lizonghang/prima.cpp.
OpenAIs multimodales GPT-4o hat bemerkenswerte Fähigkeiten in der Bildgenerierung und -bearbeitung gezeigt, doch seine Fähigkeit zur weltwissensbasierten semantischen Synthese – der nahtlosen Integration von Domänenwissen, kontextuellem Denken und der Befolgung von Anweisungen – bleibt unbestätigt. In dieser Studie bewerten wir diese Fähigkeiten systematisch in drei kritischen Dimensionen: (1) Globale Anweisungsbefolgung, (2) Präzision bei fein granulierter Bearbeitung und (3) Post-Generierungs-Denken. Während bestehende Benchmarks die starken Fähigkeiten von GPT-4o in der Bildgenerierung und -bearbeitung hervorheben, zeigt unsere Bewertung anhaltende Grenzen des Modells auf: Es greift häufig auf wörtliche Interpretationen von Anweisungen zurück, wendet Wissensbeschränkungen inkonsistent an und hat Schwierigkeiten mit bedingten Denkaufgaben. Diese Ergebnisse stellen vorherrschende Annahmen über das einheitliche Verständnis und die Generierungsfähigkeiten von GPT-4o in Frage und legen erhebliche Lücken in seiner dynamischen Wissensintegration offen. Unsere Studie fordert die Entwicklung robusterer Benchmarks und Trainingsstrategien, die über eine oberflächliche Ausrichtung hinausgehen und eine kontextbewusste und denkbasierte multimodale Generierung betonen.
Kürzlich haben langsam denkende Systeme wie GPT-o1 und DeepSeek-R1 großes Potenzial bei der Lösung anspruchsvoller Probleme durch explizite Reflexion gezeigt. Sie übertreffen die besten schnell denkenden Modelle, wie GPT-4o, deutlich in verschiedenen Mathematik- und Wissenschaftsbenchmarks. Ihre multimodalen Fähigkeiten zur logischen Schlussfolgerung bleiben jedoch auf dem Niveau von schnell denkenden Modellen. Beispielsweise ist die Leistung von GPT-o1 in Benchmarks wie MathVista, MathVerse und MathVision ähnlich wie bei schnell denkenden Modellen. In diesem Artikel streben wir an, die langsam denkenden Fähigkeiten von Vision-Sprache-Modellen durch Verstärkungslernen (ohne auf Destillation zurückzugreifen) zu verbessern, um den Stand der Technik voranzutreiben. Zunächst passen wir den GRPO-Algorithmus mit einer neuartigen Technik namens Selective Sample Replay (SSR) an, um das Problem der verschwindenden Vorteile zu lösen. Während dieser Ansatz eine starke Leistung erzielt, zeigen die daraus resultierenden RL-trainierten Modelle begrenzte Selbstreflexion oder Selbstüberprüfung. Um das langsame Denken weiter zu fördern, führen wir Forced Rethinking ein, das am Ende der anfänglichen Rollouts im RL-Training einen textuellen Nachdenk-Trigger hinzufügt und damit einen Schritt zur Selbstreflexion explizit erzwingt. Durch die Kombination dieser beiden Techniken erreicht unser Modell, VL-Rethinker, Spitzenwerte in MathVista, MathVerse und MathVision mit 80,3 %, 61,8 % bzw. 43,9 %. VL-Rethinker erzielt auch den Open-Source-Standard der Technik in multidisziplinären Benchmarks wie MMMU-Pro, EMMA und MEGA-Bench und verringert so die Lücke zu GPT-o1.
Wir stellen FUSION vor, eine Familie multimodaler großer Sprachmodelle (MLLMs) mit einem vollständigen Paradigma zur Vision-Sprach-Ausrichtung und -Integration. Im Gegensatz zu bestehenden Methoden, die sich hauptsächlich auf späte Modalitätsinteraktion während der LLM-Decodierung verlassen, erreicht unser Ansatz eine tiefe, dynamische Integration durch die gesamte Verarbeitungspipeline. Zu diesem Zweck schlagen wir die Text-Guided Unified Vision Encoding vor, das textuelle Informationen in die Vision-Kodierung einbezieht, um eine pixelgenaue Integration zu erreichen. Weiterhin entwerfen wir das Context-Aware Recursive Alignment Decoding, das visuelle Merkmale rekursiv unter Berücksichtigung des textuellen Kontexts während der Decodierung aggregiert und so eine feingranulare, fragenbezogene semantische Integration ermöglicht. Um die Merkmalszuordnung zu steuern und Modalitätsunterschiede zu minimieren, entwickeln wir den Dual-Supervised Semantic Mapping Loss. Zusätzlich erstellen wir einen Synthesized Language-Driven Question-Answer (QA)-Datensatz durch eine neue Datensynthesemethode, die hochwertige QA-Paare priorisiert, um die textgeführte Merkmalsintegration zu optimieren. Auf diesen Grundlagen aufbauend trainieren wir FUSION in zwei Größenordnungen – 3B und 8B – und zeigen, dass unser Ansatz zur Vollmodalitätsintegration bestehende Methoden mit nur 630 Vision-Tokens deutlich übertrifft. Bemerkenswerterweise übertrifft FUSION 3B Cambrian-1 8B und Florence-VL 8B in den meisten Benchmarks. FUSION 3B übertrifft Cambrian-1 8B sogar dann, wenn es auf 300 Vision-Tokens beschränkt ist. Unsere Ablationsstudien zeigen, dass FUSION LLaVA-NeXT in mehr als der Hälfte der Benchmarks unter gleicher Konfiguration ohne dynamische Auflösung übertrifft, was die Effektivität unseres Ansatzes unterstreicht. Wir veröffentlichen unseren Code, die Modellgewichte und den Datensatz. https://github.com/starriver030515/FUSION
Die Generierung von hochwertigem Code, der komplexe Programmieraufgaben löst, ist eine Herausforderung, insbesondere bei aktuellen dekoderbasierten Modellen, die stark stochastische Ausgaben erzeugen. Bei der Code-Generierung können bereits kleinste Fehler die gesamte Lösung unbrauchbar machen. Die Nutzung mehrerer gesampelter Lösungen kann die Gesamtqualität der Ausgabe erheblich verbessern. Eine effektive Methode zur Verbesserung der Code-Generierung besteht darin, ein Code-Generierungsmodell mit einem Reranker-Modell zu kombinieren, das die beste Lösung aus den generierten Samples auswählt. Wir schlagen einen neuartigen iterativen Selbsttrainingsansatz für das Selbsttraining von Reranker-Modellen unter Verwendung von Proximal Policy Optimization (PPO) vor, der darauf abzielt, sowohl die Reranking-Genauigkeit als auch den gesamten Code-Generierungsprozess zu verbessern. Im Gegensatz zu traditionellen PPO-Ansätzen, bei denen der Fokus auf der Optimierung eines generativen Modells mit einem Belohnungsmodell liegt, betont unser Ansatz die Entwicklung eines robusten Belohnungs-/Reranking-Modells. Dieses Modell verbessert die Qualität des generierten Codes durch Reranking und behebt Probleme und Fehler, die das Belohnungsmodell während der PPO-Ausrichtung mit dem Reranker möglicherweise übersehen hat. Unsere Methode verfeinert den Trainingsdatensatz iterativ, indem sie Ausgaben neu bewertet, hoch bewertete negative Beispiele identifiziert und diese in den Trainingszyklus einbindet, wodurch die Modellleistung gesteigert wird. Unsere Auswertung auf dem MultiPL-E-Datensatz zeigt, dass unser Modell mit 13,4 Milliarden Parametern ein Modell mit 33 Milliarden Parametern in Bezug auf die Code-Generierungsqualität übertrifft und dabei dreimal schneller ist. Darüber hinaus erreicht es eine Leistung, die mit GPT-4 vergleichbar ist, und übertrifft es in einer Programmiersprache.
Das Verständnis von langen Videokontexten in multimodalen großen Sprachmodellen (MLLMs) steht vor einer entscheidenden Herausforderung: die Balance zwischen Recheneffizienz und der Bewahrung feinkörniger räumlich-zeitlicher Muster. Bestehende Ansätze (z. B. spärliche Abtastung, dichte Abtastung mit niedriger Auflösung und Token-Kompression) leiden unter erheblichem Informationsverlust in den zeitlichen Dynamiken, räumlichen Details oder subtilen Interaktionen, insbesondere bei Videos mit komplexen Bewegungen oder variierenden Auflösungen. Um dies zu adressieren, schlagen wir Mavors vor, ein neuartiges Framework, das eine Multi-Granularitäts-Videodarstellung für die ganzheitliche Modellierung langer Videos einführt. Konkret kodiert Mavors den Rohvideocontent direkt in latente Repräsentationen durch zwei Kernkomponenten: 1) einen Intra-Chunk-Vision-Encoder (IVE), der hochauflösende räumliche Merkmale mittels 3D-Faltungen und Vision-Transformern bewahrt, und 2) einen Inter-Chunk-Feature-Aggregator (IFA), der zeitliche Kohärenz zwischen Chunks durch transformer-basierte Abhängigkeitsmodellierung mit Chunk-Level-Rotationspositionskodierungen herstellt. Darüber hinaus vereinheitlicht das Framework das Verständnis von Bildern und Videos, indem es Bilder als Einzelbild-Videos durch Sub-Bild-Zerlegung behandelt. Experimente über diverse Benchmarks demonstrieren die Überlegenheit von Mavors in der Bewahrung sowohl räumlicher Treue als auch zeitlicher Kontinuität und übertreffen bestehende Methoden signifikant in Aufgaben, die feinkörnige räumlich-zeitliche Schlussfolgerungen erfordern.
Web-Agents ermöglichen es Nutzern, Aufgaben in Webbrowsern durch natürliche Sprachinteraktion auszuführen. Die Bewertung der Trajektorien von Web-Agents ist ein wichtiges Problem, da sie uns hilft zu bestimmen, ob der Agent die Aufgaben erfolgreich abgeschlossen hat. Regelbasierte Methoden werden hierfür häufig eingesetzt, sind jedoch schwierig auf neue Aufgaben zu erweitern und erkennen möglicherweise nicht immer erfolgreiche Trajektorien. Eine höhere Genauigkeit könnte durch menschliche Bewertung erreicht werden, aber dieser Prozess wäre deutlich langsamer und teurer. Automatische Bewertungen mit LLMs könnten die Herausforderungen bei der Entwicklung neuer Regeln und der manuellen Annotation von Trajektorien umgehen und so eine schnellere und kosteneffiziente Bewertung ermöglichen. Es ist jedoch unklar, wie effektiv sie bei der Bewertung von Web-Agents sind. Zu diesem Zweck schlagen wir AgentRewardBench vor, den ersten Benchmark zur Bewertung der Effektivität von LLM-Richtern für Web-Agents. AgentRewardBench enthält 1302 Trajektorien über 5 Benchmarks und 4 LLMs hinweg. Jede Trajektorie in AgentRewardBench wird von einem Experten überprüft, der Fragen zum Erfolg, zu Nebenwirkungen und zur Wiederholung des Agents beantwortet. Mit unserem Benchmark bewerten wir 12 LLM-Richter und stellen fest, dass kein einzelner LLM in allen Benchmarks hervorragt. Wir stellen außerdem fest, dass die regelbasierte Bewertung, die von gängigen Benchmarks verwendet wird, dazu neigt, die Erfolgsrate von Web-Agents zu unterschätzen, was eine zentrale Schwäche der regelbasierten Bewertung und die Notwendigkeit zur Entwicklung flexiblerer automatischer Bewertungen aufzeigt. Wir veröffentlichen den Benchmark unter: https://agent-reward-bench.github.io.
Wir stellen S1-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Leistung von Large Reasoning Models (LRMs) bei einfachen Aufgaben zu bewerten, die intuitives System-1-Denken begünstigen, anstatt deliberatives System-2-Schließen. Während LRMs bedeutende Durchbrüche bei komplexen Denkaufgaben durch explizite Gedankenketten erzielt haben, könnte ihre Abhängigkeit von tiefgreifendem analytischem Denken ihre Fähigkeiten im System-1-Denken einschränken. Zudem existiert derzeit kein Benchmark, um die Leistung von LRMs bei Aufgaben zu bewerten, die solche Fähigkeiten erfordern. Um diese Lücke zu schließen, präsentiert S1-Bench eine Reihe von einfachen, vielfältigen und natürlich klaren Fragen aus verschiedenen Domänen und Sprachen, die speziell dazu entwickelt wurden, die Leistung von LRMs in solchen Aufgaben zu bewerten. Unsere umfassende Auswertung von 22 LRMs zeigt signifikant niedrigere Effizienztendenzen, wobei die Ausgaben im Durchschnitt 15,5-mal länger sind als die traditioneller kleinerer LLMs. Darüber hinaus identifizieren LRMs oft korrekte Antworten frühzeitig, setzen jedoch unnötige Überlegungen fort, wobei einige Modelle sogar zahlreiche Fehler produzieren. Diese Ergebnisse verdeutlichen die starren Denkmuster aktueller LRMs und unterstreichen den erheblichen Entwicklungsbedarf, um ausgewogene Dual-System-Denkfähigkeiten zu erreichen, die sich angemessen an die Aufgabenkomplexität anpassen können.
Jüngste Fortschritte in der nachträglichen Optimierung großer Sprachmodelle (LLMs) durch Reinforcement Learning (RL) haben zu bemerkenswerten Verbesserungen geführt, insbesondere bei der Steigerung ihrer Fähigkeiten zur Bewältigung komplexer Aufgaben. Die meisten bestehenden Methoden behandeln die Trainingsdaten jedoch als einheitliches Ganzes und übersehen dabei, dass das Training moderner LLMs oft eine Mischung von Daten aus verschiedenen Verteilungen umfasst, die sich sowohl in ihrer Herkunft als auch in ihrem Schwierigkeitsgrad unterscheiden. Diese Heterogenität stellt eine zentrale Herausforderung dar: Wie kann das Training über verschiedene Verteilungen hinweg adaptiv geplant werden, um die Lerneffizienz zu optimieren? In diesem Artikel präsentieren wir ein prinzipielles Curriculum-Learning-Framework, das auf dem Konzept der Lernbarkeit auf Verteilungsebene basiert. Unsere zentrale Erkenntnis ist, dass die Größe der Policy-Vorteile widerspiegelt, wie viel ein Modell noch von weiterem Training auf einer bestimmten Verteilung profitieren kann. Auf dieser Grundlage schlagen wir ein Curriculum-Learning-Framework auf Verteilungsebene für die RL-basierte nachträgliche Optimierung von LLMs vor, das das Upper Confidence Bound (UCB)-Prinzip nutzt, um die Sampling-Wahrscheinlichkeiten für verschiedene Verteilungen dynamisch anzupassen. Dieser Ansatz priorisiert Verteilungen mit entweder hohem durchschnittlichem Vorteil (Exploitation) oder geringer Stichprobenanzahl (Exploration), was zu einem adaptiven und theoretisch fundierten Trainingsplan führt. Wir implementieren unser Curriculum-Learning-Framework mit GRPO als zugrunde liegendem RL-Algorithmus und demonstrieren seine Wirksamkeit auf Logik-Datensätzen mit unterschiedlichen Schwierigkeitsgraden und Quellen. Unsere Experimente zeigen, dass unser Framework die Konvergenzgeschwindigkeit und die Endleistung signifikant verbessert, was den Wert von verteilungsbewussten Curriculum-Strategien in der nachträglichen Optimierung von LLMs unterstreicht. Code: https://github.com/ZhentingWang/DUMP.
Bildrepräsentationen werden oft durch isolierte, aufgabenspezifische Protokolle bewertet, was zu einem fragmentierten Verständnis der Modellfähigkeiten führt. Beispielsweise ist unklar, ob ein Bild-Einbettungsmodell, das gut darin ist, Bilder zu clustern, ebenso gut darin ist, relevante Bilder basierend auf einem Textstück abzurufen. Wir stellen den Massive Image Embedding Benchmark (MIEB) vor, um die Leistung von Bild- und Bild-Text-Einbettungsmodellen über das bisher breiteste Spektrum hinweg zu bewerten. MIEB umfasst 38 Sprachen und 130 einzelne Aufgaben, die wir in 8 übergeordnete Kategorien gruppieren. Wir bewerten 50 Modelle in unserem Benchmark und stellen fest, dass keine einzelne Methode in allen Aufgabenkategorien dominiert. Wir decken verborgene Fähigkeiten in fortschrittlichen Vision-Modellen auf, wie ihre präzise visuelle Darstellung von Texten, sowie ihre noch begrenzten Fähigkeiten bei verschachtelten Kodierungen und der Zuordnung von Bildern und Texten in Gegenwart von Störfaktoren. Wir zeigen auch, dass die Leistung von Vision-Encodern auf MIEB stark mit ihrer Leistung korreliert, wenn sie in multimodalen großen Sprachmodellen verwendet werden. Unser Code, Datensatz und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.
Die soziale Simulation revolutioniert die traditionelle sozialwissenschaftliche Forschung, indem sie menschliches Verhalten durch Interaktionen zwischen virtuellen Individuen und ihrer Umgebung modelliert. Mit den jüngsten Fortschritten bei großen Sprachmodellen (LLMs) hat dieser Ansatz ein zunehmendes Potenzial gezeigt, individuelle Unterschiede zu erfassen und Gruppenverhalten vorherzusagen. Allerdings stehen bestehende Methoden vor Herausforderungen in Bezug auf die Ausrichtung an der Umgebung, den Zielnutzern, den Interaktionsmechanismen und den Verhaltensmustern. Zu diesem Zweck stellen wir SocioVerse vor, ein LLM-Agenten-gestütztes Weltmodell für die soziale Simulation. Unser Framework verfügt über vier leistungsstarke Ausrichtungskomponenten und einen Nutzerpool von 10 Millionen realen Individuen. Um seine Wirksamkeit zu validieren, führten wir groß angelegte Simulationsexperimente in drei verschiedenen Bereichen durch: Politik, Nachrichten und Wirtschaft. Die Ergebnisse zeigen, dass SocioVerse großskalige Bevölkerungsdynamiken widerspiegeln kann, während es durch standardisierte Verfahren und minimale manuelle Anpassungen Diversität, Glaubwürdigkeit und Repräsentativität gewährleistet.
Graphical User Interface (GUI)-Agenten bieten plattformübergreifende Lösungen zur Automatisierung komplexer digitaler Aufgaben und haben ein erhebliches Potenzial, Produktivitätsabläufe zu transformieren. Ihre Leistung wird jedoch oft durch den Mangel an hochwertigen Trajektoriedaten eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir vor, Vision Language Models (VLMs) in einer speziellen Zwischentrainingsphase auf datenintensive, reasoning-intensive Aufgaben zu trainieren und anschließend zu untersuchen, wie die Einbindung dieser Aufgaben die Generalisierung auf GUI-Planungsszenarien fördert. Konkret untersuchen wir eine Reihe von Aufgaben mit leicht verfügbaren Instruction-Tuning-Daten, darunter GUI-Wahrnehmung, multimodales Reasoning und textbasiertes Reasoning. Durch umfangreiche Experimente über 11 Zwischentrainingsaufgaben zeigen wir: (1) Die Aufgabenverallgemeinerung erweist sich als äußerst effektiv und führt in den meisten Fällen zu erheblichen Verbesserungen. Beispielsweise verbessert multimodales mathematisches Reasoning die Leistung auf AndroidWorld um absolute 6,3 %. Bemerkenswerterweise steigern rein textbasierte mathematische Daten die Leistung von GUI-Webagenten signifikant, mit einer Verbesserung von 5,6 % auf WebArena und 5,4 % auf AndroidWorld, was eine beachtliche cross-modale Generalisierung von textbasierten zu visuellen Domänen unterstreicht; (2) Entgegen früheren Annahmen haben GUI-Wahrnehmungsdaten – die bisher als eng mit GUI-Agentenaufgaben verbunden und weit verbreitet für das Training angesehen wurden – einen vergleichsweise begrenzten Einfluss auf die Endleistung; (3) Basierend auf diesen Erkenntnissen identifizieren wir die effektivsten Zwischentrainingsaufgaben und erstellen optimierte Mischdatensätze, was zu absoluten Leistungssteigerungen von 8,0 % auf WebArena und 12,2 % auf AndroidWorld führt. Unsere Arbeit liefert wertvolle Einblicke in den domänenübergreifenden Wissenstransfer für GUI-Agenten und bietet einen praktischen Ansatz zur Bewältigung von Datenknappheitsproblemen in diesem aufstrebenden Bereich. Der Code, die Daten und Modelle werden unter https://github.com/hkust-nlp/GUIMid verfügbar sein.
In jüngster Zeit hat die Verbesserung der Denkfähigkeit großer multimodaler Modelle (LMMs) durch Reinforcement Learning erhebliche Fortschritte gemacht. Die meisten bestehenden Arbeiten basieren jedoch auf hochgradig denkintensiven Datensätzen wie Mathematik und Code, und Forscher wählen in der Regel großskalige Modelle als Grundlage. Wir argumentieren, dass die Erforschung der Denkfähigkeiten klein skalierten Modelle für Forscher mit begrenzten Rechenressourcen weiterhin wertvoll ist. Darüber hinaus ist es ebenso bedeutsam, Modelle in die Lage zu versetzen, ihre Denkprozesse auf allgemeinen Frage-Antwort-Datensätzen zu erklären. Daher stellen wir das klein skalierte Video-Denkmodell TinyLLaVA-Video-R1 vor. Basierend auf TinyLLaVA-Video, einem nachvollziehbar trainierten Video-Verständnismodell mit nicht mehr als 4B Parametern, zeigt es nicht nur deutlich verbesserte Denk- und Denkfähigkeiten nach der Verwendung von Reinforcement Learning auf allgemeinen Video-QA-Datensätzen, sondern weist auch die emergente Eigenschaft von „Aha-Momenten“ auf. Darüber hinaus teilen wir eine Reihe von experimentellen Erkenntnissen, die praktische Einblicke für die zukünftige Erforschung von Video-Denkfähigkeiten in klein skalierten Modellen bieten sollen. Es ist verfügbar unter https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
KI spielt eine zunehmend entscheidende Rolle bei der Transformation der Art und Weise, wie wissenschaftliche Entdeckungen gemacht werden. Wir stellen The AI Scientist-v2 vor, ein end-to-end agentenbasiertes System, das in der Lage ist, den ersten vollständig KI-generierten, peer-review-akzeptierten Workshop-Beitrag zu erstellen. Dieses System formuliert iterativ wissenschaftliche Hypothesen, entwirft und führt Experimente durch, analysiert und visualisiert Daten und verfasst eigenständig wissenschaftliche Manuskripte. Im Vergleich zu seinem Vorgänger (v1, Lu et al., 2024 arXiv:2408.06292) beseitigt The AI Scientist-v2 die Abhängigkeit von menschlich erstellten Code-Vorlagen, generalisiert effektiv über verschiedene maschinelle Lernbereiche hinweg und nutzt eine neuartige progressive agentenbasierte Baum-Suchmethodik, die von einem dedizierten Experimentmanager-Agenten gesteuert wird. Zusätzlich verbessern wir die KI-Reviewer-Komponente durch die Integration eines Vision-Language-Modell (VLM)-Feedback-Loops zur iterativen Verfeinerung von Inhalt und Ästhetik der Abbildungen. Wir haben The AI Scientist-v2 evaluiert, indem wir drei vollständig autonome Manuskripte bei einem peer-reviewed ICLR-Workshop eingereicht haben. Bemerkenswerterweise erreichte ein Manuskript hohe genug Bewertungen, um die durchschnittliche menschliche Akzeptanzschwelle zu übertreffen, was den ersten Fall eines vollständig KI-generierten Papiers markiert, das erfolgreich ein Peer-Review durchlaufen hat. Diese Leistung unterstreicht die wachsende Fähigkeit der KI, alle Aspekte der wissenschaftlichen Forschung durchzuführen. Wir erwarten, dass weitere Fortschritte in der autonomen wissenschaftlichen Entdeckungstechnologie die menschliche Wissensgenerierung tiefgreifend beeinflussen werden, indem sie eine beispiellose Skalierbarkeit der Forschungsproduktivität ermöglichen und wissenschaftliche Durchbrüche erheblich beschleunigen, was der Gesellschaft insgesamt zugutekommt. Wir haben den Code unter https://github.com/SakanaAI/AI-Scientist-v2 open-source veröffentlicht, um die zukünftige Entwicklung dieser transformativen Technologie zu fördern. Wir diskutieren auch die Rolle der KI in der Wissenschaft, einschließlich der KI-Sicherheit.
Wissenschaftler leiten oft abstrakte Verfahren aus spezifischen Problemfällen ab und verwenden diese Abstraktionen, um neue, verwandte Fälle zu generieren. Beispielsweise haben Programme, die die formalen Regeln und Eigenschaften eines Systems kodieren, in Bereichen wie RL (prozedurale Umgebungen) bis hin zur Physik (Simulations-Engines) nützlich erwiesen. Diese Programme können als Funktionen betrachtet werden, die basierend auf ihren Parametrisierungen (z. B. Gridworld-Konfiguration oder anfängliche physikalische Bedingungen) zu unterschiedlichen Ausgaben führen. Wir führen den Begriff EFA (Executable Functional Abstraction) ein, um solche Programme für mathematische Probleme zu bezeichnen. Ähnliche Konstrukte wie EFA haben sich als nützlich für mathematisches Denken erwiesen, insbesondere als Problemgeneratoren, um Modelle zu testen. Bisherige Arbeiten beschränkten sich jedoch auf Abstraktionen für Grundschulmathematik (deren einfache Regeln sich leicht in Programmen kodieren lassen), während die Generierung von EFAs für fortgeschrittene Mathematik bisher menschliche Ingenieurskunst erforderte. Wir untersuchen die automatische Konstruktion von EFAs für fortgeschrittene mathematische Probleme. Wir operationalisieren die Aufgabe der automatischen Konstruktion von EFAs als eine Programmsynthese-Aufgabe und entwickeln EFAGen, das ein LLM auf ein Ausgangsproblem und dessen schrittweise Lösung konditioniert, um Kandidaten für EFA-Programme zu generieren, die der verallgemeinerten Problem- und Lösungsklasse des Ausgangsproblems treu bleiben. Darüber hinaus formalisieren wir Eigenschaften, die jedes gültige EFA besitzen muss, in Form von ausführbaren Unit-Tests und zeigen, wie diese Tests als verifizierbare Belohnungen verwendet werden können, um LLMs darin zu trainieren, bessere EFA-Autoren zu werden. Wir demonstrieren, dass von EFAGen konstruierte EFAs rational agieren, indem sie den Ausgangsproblemen treu bleiben, lernbare Problemvariationen erzeugen und dass EFAGen EFAs aus mehreren diversen Quellen von Wettbewerbsmathematikproblemen ableiten kann. Schließlich zeigen wir nachgelagerte Anwendungen von modellgeschriebenen EFAs, z. B. das Finden von Problemvariationen, die für einen Lernenden schwieriger oder einfacher zu lösen sind, sowie die Datengenerierung.
Effektives Denken ist entscheidend für die Lösung komplexer mathematischer Probleme. Aktuelle große Sprachmodelle (LLMs) haben die Leistung durch die Skalierung der Berechnungen zur Testzeit mittels langer Ketten von Gedankengängen gesteigert. Allerdings sind transformerbasierte Modelle aufgrund ihrer quadratischen Rechenkomplexität und linearen Speicheranforderungen inhärent in der Erweiterung der Kontextlänge begrenzt. In diesem Artikel stellen wir ein neuartiges hybrides lineares RNN-Denkmodell, M1, vor, das auf der Mamba-Architektur basiert und speichereffiziente Inferenz ermöglicht. Unser Ansatz nutzt einen Destillationsprozess bestehender Denkmodelle und wird durch RL-Training weiter verbessert. Experimentelle Ergebnisse auf den AIME- und MATH-Benchmarks zeigen, dass M1 nicht nur frühere lineare RNN-Modelle übertrifft, sondern auch die Leistung der state-of-the-art Deepseek R1 destillierten Denkmodelle in ähnlichem Maßstab erreicht. Wir vergleichen auch unsere Generierungsgeschwindigkeit mit einer hochleistungsfähigen allgemeinen Inferenz-Engine, vLLM, und beobachten eine mehr als dreifache Beschleunigung im Vergleich zu einem Transformer gleicher Größe. Mit dem Durchsatzgewinn können wir unter einem festen Generierungszeitbudget mithilfe von Selbstkonsistenz-Abstimmungen eine höhere Genauigkeit im Vergleich zu den DeepSeek R1 destillierten Transformer-Denkmodellen erreichen. Insgesamt führen wir ein hybrides Mamba-Denkmodell ein und bieten einen effektiveren Ansatz zur Skalierung der Generierung zur Testzeit mithilfe von Selbstkonsistenz oder langen Ketten von Gedankengängen.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen haben bemerkenswerte Fähigkeiten gezeigt. Allerdings scheitern sie oft, wenn sie mit komplexen Denkaufgaben konfrontiert werden, die Menschen typischerweise durch visuelle Hilfsmittel und bewusstes, schrittweises Denken lösen. Während bestehende Methoden textbasiertes langsames Denken oder rudimentäre visuelle Unterstützung untersucht haben, erfassen sie nicht die komplexe, verschränkte Natur menschlicher visuell-verbaler Denkprozesse. Um diese Grenzen zu überwinden und inspiriert von den Mechanismen des langsamen Denkens in der menschlichen Kognition, führen wir VisuoThink ein, ein neuartiges Framework, das visuell-räumliche und sprachliche Domänen nahtlos integriert. VisuoThink ermöglicht multimodales langsames Denken durch progressives visuell-textuelles Schließen und integriert Testzeit-Skalierung durch Look-Ahead-Baumsuche. Umfangreiche Experimente zeigen, dass VisuoThink die Denkfähigkeiten durch Inferenzzeit-Skalierung signifikant verbessert, selbst ohne Feinabstimmung, und Spitzenleistungen in Aufgaben der Geometrie und räumlichen Logik erzielt.
Aktuelle LLMs haben ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessert, hauptsächlich durch die Einbeziehung eines expliziten, langwierigen Denkprozesses als Teil der Generierung. In diesem Artikel stellen wir die Frage, ob dieser explizite Denkprozess notwendig ist. Mit dem state-of-the-art-Modell DeepSeek-R1-Distill-Qwen stellen wir fest, dass das Umgehen des Denkprozesses durch einfache Prompting, bezeichnet als NoThinking, überraschend effektiv sein kann. Bei Kontrolle der Anzahl der Tokens übertrifft NoThinking Denken über eine vielfältige Auswahl von sieben anspruchsvollen Reasoning-Datensätzen – einschließlich mathematischer Problemlösung, formalem Theorembeweis und Programmierung – insbesondere in ressourcenbeschränkten Szenarien, z.B. 51,3 vs. 28,9 auf ACM 23 mit 700 Tokens. Bemerkenswerterweise wird die Leistung von NoThinking mit zunehmendem k bei pass@k wettbewerbsfähiger. Aufbauend auf dieser Beobachtung zeigen wir, dass ein paralleler Skalierungsansatz, der NoThinking verwendet, um N Ausgaben unabhängig zu generieren und sie zu aggregieren, sehr effektiv ist. Für die Aggregation verwenden wir taskspezifische Verifizierer, wenn verfügbar, oder wenden einfache Best-of-N-Strategien wie konfidenzbasierte Auswahl an. Unsere Methode übertrifft eine Reihe von Baselines mit ähnlicher Latenz bei Verwendung von Denken und ist vergleichbar mit Denken bei deutlich längerer Latenz (bis zu 9x). Zusammenfassend regt unsere Forschung eine Neubewertung der Notwendigkeit langwieriger Denkprozesse an und etabliert gleichzeitig einen wettbewerbsfähigen Referenzpunkt, um starke Reasoning-Leistungen in ressourcenbeschränkten Szenarien oder bei niedriger Latenz durch parallele Skalierung zu erreichen.
Die Entdeckung wissenschaftlicher Gleichungen ist eine grundlegende Aufgabe in der Geschichte des wissenschaftlichen Fortschritts, die es ermöglicht, Gesetze abzuleiten, die natürliche Phänomene regeln. In jüngster Zeit haben Large Language Models (LLMs) für diese Aufgabe Interesse geweckt, da sie das Potenzial haben, eingebettetes wissenschaftliches Wissen für die Hypothesengenerierung zu nutzen. Die Bewertung der tatsächlichen Entdeckungsfähigkeiten dieser Methoden bleibt jedoch eine Herausforderung, da bestehende Benchmarks oft auf gängigen Gleichungen basieren, die von LLMs auswendig gelernt werden können, was zu überhöhten Leistungsmetriken führt, die keine echte Entdeckung widerspiegeln. In diesem Artikel stellen wir LLM-SRBench vor, einen umfassenden Benchmark mit 239 anspruchsvollen Problemen aus vier wissenschaftlichen Domänen, der speziell entwickelt wurde, um LLM-basierte Methoden zur Entdeckung wissenschaftlicher Gleichungen zu bewerten und dabei triviales Auswendiglernen zu verhindern. Unser Benchmark besteht aus zwei Hauptkategorien: LSR-Transform, das gängige physikalische Modelle in weniger verbreitete mathematische Darstellungen umwandelt, um das Denken über auswendig gelernte Formen hinaus zu testen, und LSR-Synth, das synthetische, entdeckungsorientierte Probleme einführt, die datengesteuertes Denken erfordern. Durch umfangreiche Evaluierung mehrerer state-of-the-art Methoden, sowohl mit offenen als auch geschlossenen LLMs, stellen wir fest, dass das bisher beste System lediglich eine symbolische Genauigkeit von 31,5 % erreicht. Diese Ergebnisse unterstreichen die Herausforderungen der Entdeckung wissenschaftlicher Gleichungen und positionieren LLM-SRBench als wertvolle Ressource für zukünftige Forschung.
Große Sprachmodelle lernen und lernen kontinuierlich durch die Akkumulation von gradientenbasierten Updates, aber wie einzelne neue Informationen das bestehende Wissen beeinflussen, was sowohl zu nützlicher Generalisierung als auch zu problematischen Halluzinationen führt, bleibt weitgehend unverstanden. Wir zeigen, dass beim Lernen neuer Informationen LLMs einen „Priming“-Effekt aufweisen: Das Lernen einer neuen Tatsache kann dazu führen, dass das Modell dieses Wissen unangemessen in unzusammenhängenden Kontexten anwendet. Um dieses Phänomen systematisch zu untersuchen, führen wir „Outlandish“ ein, einen sorgfältig kuratierten Datensatz von 1320 diversen Textproben, der darauf abzielt, zu untersuchen, wie neues Wissen durch die bestehende Wissensbasis eines LLMs diffundiert. Mit diesem Datensatz zeigen wir, dass das Ausmaß des Primings nach dem Lernen neuer Informationen vorhergesagt werden kann, indem die Token-Wahrscheinlichkeit von Schlüsselwörtern vor dem Lernen gemessen wird. Diese Beziehung bleibt robust über verschiedene Modellarchitekturen (PALM-2, Gemma, Llama), Größen und Trainingsstadien hinweg. Schließlich entwickeln wir zwei neuartige Techniken, um zu modulieren, wie neues Wissen das bestehende Modellverhalten beeinflusst: (1) eine „Stepping-Stone“-Textaugmentierungsstrategie und (2) eine „Ignore-k“-Update-Pruning-Methode. Diese Ansätze reduzieren unerwünschte Priming-Effekte um 50-95 %, während die Fähigkeit des Modells, neue Informationen zu lernen, erhalten bleibt. Unsere Erkenntnisse bieten sowohl empirische Einblicke in das Lernen von LLMs als auch praktische Werkzeuge zur Verbesserung der Spezifität der Wissenseinfügung in Sprachmodelle. Weitere Materialien: https://sunchipsster1.github.io/projects/outlandish/
Der Aufstieg von KI-Charakteren, die durch große Sprachmodelle (LLMs) angetrieben werden, wirft Sicherheitsbedenken auf, insbesondere für vulnerable menschliche Nutzer mit psychischen Störungen. Um diese Risiken zu adressieren, schlagen wir EmoAgent vor, ein Multi-Agenten-KI-Framework, das entwickelt wurde, um psychische Gesundheitsgefahren in Mensch-KI-Interaktionen zu bewerten und zu mindern. EmoAgent besteht aus zwei Komponenten: EmoEval simuliert virtuelle Nutzer, einschließlich solcher, die psychisch vulnerable Personen darstellen, um Veränderungen der psychischen Gesundheit vor und nach Interaktionen mit KI-Charakteren zu bewerten. Es verwendet klinisch bewährte psychologische und psychiatrische Bewertungswerkzeuge (PHQ-9, PDI, PANSS), um mentale Risiken zu evaluieren, die durch LLMs induziert werden. EmoGuard fungiert als Vermittler, überwacht den mentalen Status der Nutzer, sagt potenzielle Schäden voraus und bietet korrektives Feedback, um Risiken zu mindern. Experimente, die in beliebten charakterbasierten Chatbots durchgeführt wurden, zeigen, dass emotional ansprechende Dialoge bei vulnerablen Nutzern zu einer psychischen Verschlechterung führen können, wobei in mehr als 34,4 % der Simulationen eine Verschlechterung des mentalen Zustands festgestellt wurde. EmoGuard reduziert diese Verschlechterungsraten signifikant, was seine Rolle bei der Sicherstellung sicherer KI-Mensch-Interaktionen unterstreicht. Unser Code ist verfügbar unter: https://github.com/1akaman/EmoAgent.
Die 3D-Beschriftung, die darauf abzielt, den Inhalt von 3D-Szenen in natürlicher Sprache zu beschreiben, bleibt aufgrund der inhärenten Sparsität von Punktwolken und der schwachen cross-modalen Ausrichtung in bestehenden Methoden äußerst herausfordernd. Um diese Herausforderungen zu bewältigen, schlagen wir 3D CoCa vor, ein neuartiges, einheitliches Framework, das kontrastives Vision-Sprache-Lernen nahtlos mit der Generierung von 3D-Beschriftungen in einer einzigen Architektur kombiniert. Unser Ansatz nutzt ein eingefrorenes CLIP Vision-Sprache-Backbone, um reichhaltige semantische Prioritäten bereitzustellen, einen räumlich bewussten 3D-Szenen-Encoder, um geometrische Kontexte zu erfassen, und einen multimodalen Decoder, um beschreibende Texte zu generieren. Im Gegensatz zu früheren zweistufigen Methoden, die auf expliziten Objektvorschlägen basieren, optimiert 3D CoCa kontrastive und beschriftungsbezogene Ziele gemeinsam in einem gemeinsamen Merkmalsraum, wodurch der Bedarf an externen Detektoren oder handgefertigten Vorschlägen entfällt. Dieses gemeinsame Trainingsparadigma führt zu einer stärkeren räumlichen Argumentation und einer reicheren semantischen Verankerung, indem 3D- und textuelle Repräsentationen ausgerichtet werden. Umfangreiche Experimente auf den Benchmarks ScanRefer und Nr3D zeigen, dass 3D CoCa die aktuellen State-of-the-Art-Methoden bei 0,5IoU signifikant um 10,2 % bzw. 5,76 % im CIDEr-Maß übertrifft. Der Code wird unter https://github.com/AIGeeksGroup/3DCoCa verfügbar sein.
Jüngste Fortschritte bei Large Language Models (LLMs) haben es ihnen ermöglicht, menschenähnliche Überzeugungsfähigkeiten zu erreichen. Dieses Potenzial wirft jedoch auch Bedenken hinsichtlich der Sicherheitsrisiken von LLM-gesteuerter Überzeugung auf, insbesondere ihre Fähigkeit zu unethischem Einfluss durch Manipulation, Täuschung, Ausnutzung von Schwachstellen und vielen anderen schädlichen Taktiken. In dieser Arbeit präsentieren wir eine systematische Untersuchung der Sicherheit von LLM-Überzeugung anhand zweier kritischer Aspekte: (1) ob LLMs unethische Überzeugungsaufgaben angemessen ablehnen und unethische Strategien während der Ausführung vermeiden, einschließlich Fällen, in denen das ursprüngliche Überzeugungsziel ethisch neutral erscheint, und (2) wie Einflussfaktoren wie Persönlichkeitsmerkmale und externer Druck ihr Verhalten beeinflussen. Zu diesem Zweck führen wir PersuSafety ein, den ersten umfassenden Rahmen zur Bewertung der Überzeugungssicherheit, der aus drei Phasen besteht: Erstellung von Überzeugungsszenarien, Simulation überzeugender Gespräche und Bewertung der Überzeugungssicherheit. PersuSafety deckt 6 verschiedene unethische Überzeugungsthemen und 15 gängige unethische Strategien ab. Durch umfangreiche Experimente mit 8 weit verbreiteten LLMs beobachten wir erhebliche Sicherheitsbedenken bei den meisten LLMs, einschließlich des Versagens, schädliche Überzeugungsaufgaben zu erkennen, und der Nutzung verschiedener unethischer Überzeugungsstrategien. Unsere Studie fordert mehr Aufmerksamkeit für die Verbesserung der Sicherheitsausrichtung in fortschrittlichen und zielgerichteten Gesprächen wie Überzeugungsversuchen.
Vernunftfähige große Sprachmodelle (LLMs) haben kürzlich beeindruckende Leistungen bei komplexen logischen und mathematischen Aufgaben gezeigt, doch ihre Effektivität bei der Bewertung der natürlichen Sprachgenerierung bleibt unerforscht. Diese Studie vergleicht systematisch vernunftbasierte LLMs (DeepSeek-R1 und OpenAI o3) mit ihren nicht-vernunftfähigen Gegenstücken in den Aufgaben der maschinellen Übersetzung (MT) und Textzusammenfassung (TS). Wir bewerten acht Modelle aus drei architektonischen Kategorien, darunter state-of-the-art Vernunftmodelle, ihre destillierten Varianten (mit Parametern zwischen 8B und 70B) und äquivalente konventionelle, nicht-vernunftfähige LLMs. Unsere Experimente auf den Benchmarks WMT23 und SummEval zeigen, dass die Vorteile von Vernunftfähigkeiten stark modell- und aufgabenabhängig sind: Während OpenAI o3-mini-Modelle konsistente Leistungsverbesserungen mit zunehmender Vernunftintensität zeigen, schneidet DeepSeek-R1 im Vergleich zu seiner nicht-vernunftfähigen Variante schlechter ab, mit Ausnahme bestimmter Aspekte der TS-Bewertung. Korrelationsanalysen zeigen, dass eine erhöhte Nutzung von Vernunft-Tokens positiv mit der Bewertungsqualität in o3-mini-Modellen korreliert. Darüber hinaus zeigen unsere Ergebnisse, dass die Destillation von Vernunftfähigkeiten in mittelgroßen Modellen (32B) eine angemessene Leistung beibehält, in kleineren Varianten (8B) jedoch erheblich abnimmt. Diese Arbeit bietet die erste umfassende Bewertung von vernunftfähigen LLMs für die NLG-Bewertung und liefert Einblicke in ihre praktische Anwendung.
Multimodales Denken, das Sprache und visuelle Hinweise in Problemlösung und Entscheidungsfindung integriert, ist ein grundlegender Aspekt der menschlichen Intelligenz und ein entscheidender Schritt hin zu künstlicher allgemeiner Intelligenz. Die Bewertung der Fähigkeiten des multimodalen Denkens in Multimodalen Großen Sprachmodellen (MLLMs) bleibt jedoch unzureichend. Die meisten bestehenden Denkbenchmarks sind durch begrenzte Datenmengen, enge Domänenabdeckung und unstrukturierte Wissensverteilung eingeschränkt. Um diese Lücken zu schließen, führen wir MDK12-Bench ein, einen multidisziplinären Benchmark, der die Denkfähigkeiten von MLLMs anhand realer K-12-Prüfungen bewertet. Unser Benchmark umfasst sechs Disziplinen (Mathematik, Physik, Chemie, Biologie, Geographie und Informatik) und besteht aus 140.000 Denkinstanzen über verschiedene Schwierigkeitsgrade von der Grundschule bis zur 12. Klasse. Er bietet 6.827 Instanz-basierte Wissenspunkt-Annotationen basierend auf einer gut organisierten Wissensstruktur, detaillierte Antwortenklärungen, Schwierigkeitslabels und jahrgangsübergreifende Partitionen, was eine robuste Plattform für eine umfassende Bewertung bietet. Zusätzlich stellen wir ein neuartiges dynamisches Bewertungsframework vor, um Datenkontaminationsprobleme zu mindern, indem Frageformate, Fragetypen und Bildstile während der Bewertung gebootstrappt werden. Umfangreiche Experimente auf MDK12-Bench offenbaren die erheblichen Einschränkungen aktueller MLLMs im multimodalen Denken. Die Erkenntnisse aus unserem Benchmark liefern Einblicke in die Entwicklung der nächsten Modellgeneration. Unsere Daten und Codes sind verfügbar unter https://github.com/LanceZPF/MDK12.
Um den Entwicklungsaufwand zu reduzieren und eine nahtlose Integration zwischen potenziellen Komponenten, die eine generative KI-Anwendung ausmachen, zu ermöglichen, wurde kürzlich das Model Context Protocol (MCP) (Anthropic, 2024) veröffentlicht und anschließend weit verbreitet übernommen. Das MCP ist ein offenes Protokoll, das API-Aufrufe an große Sprachmodelle (LLMs), Datenquellen und agentenbasierte Werkzeuge standardisiert. Durch die Verbindung mehrerer MCP-Server, die jeweils mit einer Reihe von Werkzeugen, Ressourcen und Prompts definiert sind, können Benutzer automatisierte Workflows erstellen, die vollständig von LLMs gesteuert werden. Wir zeigen jedoch, dass das aktuelle MCP-Design eine Vielzahl von Sicherheitsrisiken für Endbenutzer birgt. Insbesondere demonstrieren wir, dass führende LLMs in der Branche dazu verleitet werden können, MCP-Werkzeuge zu nutzen, um das System eines KI-Entwicklers durch verschiedene Angriffe zu kompromittieren, wie z. B. die Ausführung von bösartigem Code, die Fernsteuerung des Zugriffs und den Diebstahl von Zugangsdaten. Um diese und verwandte Angriffe proaktiv zu mindern, stellen wir ein Sicherheitsprüfwerkzeug vor, den MCPSafetyScanner, das erste agentenbasierte Werkzeug zur Bewertung der Sicherheit eines beliebigen MCP-Servers. MCPScanner verwendet mehrere Agenten, um (a) automatisch adversarische Beispiele basierend auf den Werkzeugen und Ressourcen eines MCP-Servers zu bestimmen; (b) verwandte Schwachstellen und Abhilfemaßnahmen basierend auf diesen Beispielen zu suchen; und (c) einen Sicherheitsbericht zu erstellen, der alle Ergebnisse detailliert. Unsere Arbeit beleuchtet ernsthafte Sicherheitsprobleme bei allgemeinen agentenbasierten Workflows und bietet gleichzeitig ein proaktives Werkzeug, um die Sicherheit von MCP-Servern zu prüfen und erkannte Schwachstellen vor der Bereitstellung zu beheben. Der beschriebene MCP-Server-Prüfwerkzeug, MCPSafetyScanner, ist frei verfügbar unter: https://github.com/johnhalloran321/mcpSafetyScanner
Große, vortrainierte Diffusionsmodelle haben hervorragende Ergebnisse im Bereich der bedingten Bildgenerierung erzielt. Die Restaurierung antiker Wandmalereien stellt jedoch als wichtige nachgelagerte Aufgabe in diesem Bereich erhebliche Herausforderungen für diffusionsbasierte Restaurierungsmethoden dar, insbesondere aufgrund der großen beschädigten Flächen und der knappen Trainingsdaten. Bei bedingten Restaurierungsaufgaben liegt der Fokus stärker darauf, ob die restaurierten Teile die ästhetischen Standards der Wandmalereirestaurierung in Bezug auf den Gesamtstil und die Nahtdetails erfüllen. Solche Metriken zur Bewertung heuristischer Bildergänzungen fehlen in der aktuellen Forschung. Daher schlagen wir DiffuMural vor, eine Kombination aus Multi-Skalen-Konvergenz und kollaborativem Diffusionsmechanismus mit ControlNet und zyklischem Konsistenzverlust, um die Übereinstimmung zwischen den generierten Bildern und der bedingten Steuerung zu optimieren. DiffuMural zeigt herausragende Fähigkeiten bei der Restaurierung von Wandmalereien und nutzt Trainingsdaten von 23 großformatigen Dunhuang-Wandmalereien, die eine konsistente visuelle Ästhetik aufweisen. Das Modell überzeugt bei der Wiederherstellung komplexer Details, erreicht ein kohärentes Gesamtbild und bewältigt die besonderen Herausforderungen, die durch unvollständige Wandmalereien ohne faktische Grundlage entstehen. Unser Bewertungsrahmen umfasst vier Schlüsselmetriken zur quantitativen Bewertung unvollständiger Wandmalereien: faktische Genauigkeit, texturale Details, kontextuelle Semantik und ganzheitliche visuelle Kohärenz. Darüber hinaus integrieren wir humanistische Wertbewertungen, um sicherzustellen, dass die restaurierten Wandmalereien ihren kulturellen und künstlerischen Wert behalten. Umfangreiche Experimente bestätigen, dass unsere Methode sowohl in qualitativen als auch in quantitativen Metriken den State-of-the-Art (SOTA)-Ansätzen überlegen ist.