ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Auf dem Weg zum multimodalen Generalisten: General-Level und General-Bench
On Path to Multimodal Generalist: General-Level and General-Bench

May 7, 2025
Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
22

Das Multimodale Große Sprachmodell (MLLM) erfährt derzeit ein rasantes Wachstum, angetrieben durch die fortgeschrittenen Fähigkeiten von LLMs. Im Gegensatz zu früheren Spezialisten entwickeln sich bestehende MLLMs hin zu einem Paradigma des Multimodalen Generalisten. Ursprünglich auf das Verständnis mehrerer Modalitäten beschränkt, haben diese Modelle Fortschritte gemacht, um nicht nur zu verstehen, sondern auch über Modalitäten hinweg zu generieren. Ihre Fähigkeiten haben sich von grob- zu feinkörniger multimodaler Wahrnehmung erweitert und von der Unterstützung begrenzter Modalitäten zu beliebigen Modalitäten. Während es viele Benchmarks gibt, um MLLMs zu bewerten, stellt sich eine kritische Frage: Können wir einfach davon ausgehen, dass eine höhere Leistung über verschiedene Aufgaben hinweg auf eine stärkere MLLM-Fähigkeit hinweist und uns näher an KI auf menschlichem Niveau bringt? Wir argumentieren, dass die Antwort nicht so einfach ist, wie sie scheint. Dieses Projekt stellt General-Level vor, ein Bewertungsrahmen, der 5-stufige Leistungs- und Allgemeinheitsniveaus von MLLMs definiert und eine Methodik bietet, um MLLMs zu vergleichen und den Fortschritt bestehender Systeme hin zu robusteren multimodalen Generalisten und letztlich hin zu AGI zu messen. Im Kern des Rahmens steht das Konzept der Synergie, das misst, ob Modelle konsistente Fähigkeiten über Verständnis und Generierung sowie über mehrere Modalitäten hinweg beibehalten. Um diese Bewertung zu unterstützen, präsentieren wir General-Bench, das ein breiteres Spektrum an Fähigkeiten, Modalitäten, Formaten und Kapazitäten umfasst, einschließlich über 700 Aufgaben und 325.800 Instanzen. Die Bewertungsergebnisse, die über 100 bestehende state-of-the-art MLLMs einbeziehen, enthüllen die Fähigkeitsrangfolge der Generalisten und heben die Herausforderungen bei der Erreichung echter KI hervor. Wir erwarten, dass dieses Projekt den Weg für zukünftige Forschung zu multimodalen Grundmodellen der nächsten Generation ebnet und eine robuste Infrastruktur bietet, um die Verwirklichung von AGI zu beschleunigen. Projektseite: https://generalist.top/

LLM-unabhängiges adaptives RAG: Lassen Sie die Frage für sich selbst sprechen
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7, 2025
Maria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
121

Große Sprachmodelle (LLMs) neigen zu Halluzinationen, und Retrieval-Augmented Generation (RAG) hilft dabei, dies zu mildern, jedoch mit hohem Rechenaufwand und dem Risiko von Fehlinformationen. Adaptive Retrieval zielt darauf ab, nur bei Bedarf Informationen abzurufen, aber bestehende Ansätze stützen sich auf unsichere Schätzungen durch LLMs, die ineffizient und unpraktisch bleiben. In dieser Studie führen wir leichte, LLM-unabhängige adaptive Retrieval-Methoden ein, die auf externen Informationen basieren. Wir untersuchten 27 Merkmale, die in 7 Gruppen organisiert sind, sowie deren hybride Kombinationen. Wir bewerteten diese Methoden anhand von 6 Frage-Antwort-Datensätzen und analysierten die Leistung und Effizienz der QA-Systeme. Die Ergebnisse zeigen, dass unser Ansatz die Leistung komplexer LLM-basierter Methoden erreicht, während er erhebliche Effizienzgewinne erzielt, was das Potenzial externer Informationen für adaptives Retrieval demonstriert.

Vereinheitlichte multimodale Verstehens- und Generierungsmodelle: Fortschritte, Herausforderungen und Chancen
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5, 2025
Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
754

In den letzten Jahren gab es bemerkenswerte Fortschritte sowohl bei multimodalen Verständnismodellen als auch bei Bildgenerierungsmodellen. Trotz ihrer jeweiligen Erfolge haben sich diese beiden Domänen unabhängig voneinander entwickelt, was zu unterschiedlichen architektonischen Paradigmen geführt hat: Während autoregressive Architekturen das multimodale Verständnis dominiert haben, sind diffusionsbasierte Modelle zum Eckpfeiler der Bildgenerierung geworden. In jüngster Zeit wächst das Interesse an der Entwicklung einheitlicher Frameworks, die diese Aufgaben integrieren. Die neuen Fähigkeiten von GPT-4o verdeutlichen diesen Trend und unterstreichen das Potenzial für eine Vereinheitlichung. Die architektonischen Unterschiede zwischen den beiden Domänen stellen jedoch erhebliche Herausforderungen dar. Um einen klaren Überblick über die aktuellen Bemühungen zur Vereinheitlichung zu geben, präsentieren wir eine umfassende Übersicht, die zukünftige Forschungen leiten soll. Zunächst führen wir die grundlegenden Konzepte und jüngsten Fortschritte in multimodalen Verständnis- und Text-zu-Bild-Generierungsmodellen ein. Anschließend überprüfen wir bestehende einheitliche Modelle und kategorisieren sie in drei Hauptarchitekturparadigmen: diffusionsbasierte, autoregressive und hybride Ansätze, die autoregressive und Diffusionsmechanismen kombinieren. Für jede Kategorie analysieren wir die strukturellen Designs und Innovationen, die von verwandten Arbeiten eingeführt wurden. Darüber hinaus stellen wir Datensätze und Benchmarks zusammen, die speziell für einheitliche Modelle entwickelt wurden, und bieten Ressourcen für zukünftige Untersuchungen. Schließlich diskutieren wir die wichtigsten Herausforderungen in diesem jungen Bereich, einschließlich Tokenisierungsstrategie, cross-modaler Aufmerksamkeit und Daten. Da sich dieses Gebiet noch in einem frühen Stadium befindet, erwarten wir rasche Fortschritte und werden diese Übersicht regelmäßig aktualisieren. Unser Ziel ist es, weitere Forschungen zu inspirieren und der Community eine wertvolle Referenz zu bieten. Die mit dieser Übersicht verbundenen Referenzen sind auf GitHub verfügbar (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

ZeroSearch: Förderung der Suchfähigkeit von LLMs ohne Suche
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7, 2025
Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
658

Effektive Informationssuche ist entscheidend, um die Fähigkeiten großer Sprachmodelle (LLMs) in Bezug auf Schlussfolgerungen und Generierung zu verbessern. Aktuelle Forschungen haben untersucht, wie Verstärkungslernen (Reinforcement Learning, RL) genutzt werden kann, um die Suchfähigkeiten von LLMs durch die Interaktion mit Live-Suchmaschinen in realen Umgebungen zu steigern. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, stehen sie vor zwei großen Herausforderungen: (1) Unkontrollierte Dokumentqualität: Die Qualität der von Suchmaschinen zurückgegebenen Dokumente ist oft unvorhersehbar, was Rauschen und Instabilität in den Trainingsprozess einführt. (2) Prohibitiv hohe API-Kosten: RL-Training erfordert häufige Rollouts, die potenziell Hunderttausende von Suchanfragen umfassen können, was erhebliche API-Kosten verursacht und die Skalierbarkeit stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir ZeroSearch vor, ein Reinforcement-Learning-Framework, das die Suchfähigkeiten von LLMs fördert, ohne mit echten Suchmaschinen zu interagieren. Unser Ansatz beginnt mit einem leichtgewichtigen, überwachten Feinabgleich, um das LLM in ein Retrieval-Modul zu verwandeln, das sowohl relevante als auch verrauschte Dokumente als Antwort auf eine Anfrage generieren kann. Während des RL-Trainings verwenden wir eine curriculum-basierte Rollout-Strategie, die die Qualität der generierten Dokumente schrittweise verschlechtert und so die Fähigkeit des Modells zur Schlussfolgerung allmählich fördert, indem es zunehmend anspruchsvollen Retrieval-Szenarien ausgesetzt wird. Umfangreiche Experimente zeigen, dass ZeroSearch die Suchfähigkeiten von LLMs effektiv fördert, wobei ein 3B-LLM als Retrieval-Modul verwendet wird. Bemerkenswerterweise erreicht ein 7B-Retrieval-Modul eine vergleichbare Leistung wie eine echte Suchmaschine, während ein 14B-Retrieval-Modul diese sogar übertrifft. Darüber hinaus generalisiert es gut über Basis- und instruktionsfeinabgestimmte Modelle verschiedener Parametergrößen hinweg und ist mit einer Vielzahl von RL-Algorithmen kompatibel.

HunyuanCustom: Eine multimodale Architektur für die Erzeugung personalisierter Videos
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7, 2025
Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
353

Die personalisierte Videogenerierung zielt darauf ab, Videos mit spezifischen Subjekten unter flexiblen, benutzerdefinierten Bedingungen zu erzeugen, doch bestehende Methoden kämpfen oft mit Identitätskonsistenz und begrenzten Eingabemodalitäten. In diesem Artikel stellen wir HunyuanCustom vor, ein multimodales Framework zur personalisierten Videogenerierung, das die Subjektkonsistenz betont und gleichzeitig Bild-, Audio-, Video- und Textbedingungen unterstützt. Basierend auf HunyuanVideo adressiert unser Modell zunächst die Aufgabe der bild-text-basierten Generierung durch die Einführung eines Text-Bild-Fusionsmoduls, das auf LLaVA basiert, um das multimodale Verständnis zu verbessern, sowie eines Bild-ID-Verstärkungsmoduls, das zeitliche Verkettung nutzt, um Identitätsmerkmale über Frames hinweg zu verstärken. Um die audio- und videobasierte Generierung zu ermöglichen, schlagen wir weiterhin modalitätsspezifische Bedingungsinjektionsmechanismen vor: ein AudioNet-Modul, das hierarchische Ausrichtung über räumliche Kreuzaufmerksamkeit erreicht, und ein videogesteuertes Injektionsmodul, das latent-komprimierte Bedingungsvideos über ein Patchify-basiertes Feature-Alignment-Netzwerk integriert. Umfangreiche Experimente in Einzel- und Mehrsubjektszenarien zeigen, dass HunyuanCustom in Bezug auf ID-Konsistenz, Realismus und Text-Video-Ausrichtung deutlich besser abschneidet als state-of-the-art Open- und Closed-Source-Methoden. Darüber hinaus validieren wir seine Robustheit in nachgelagerten Aufgaben, einschließlich der audio- und videogesteuerten personalisierten Videogenerierung. Unsere Ergebnisse unterstreichen die Wirksamkeit multimodaler Bedingungen und identitätsbewahrender Strategien bei der Weiterentwicklung kontrollierbarer Videogenerierung. Der gesamte Code und die Modelle sind unter https://hunyuancustom.github.io verfügbar.

PrimitiveAnything: Menschlich erstellte 3D-Primitiv-Zusammensetzungserzeugung mit Auto-Regressivem Transformer
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7, 2025
Jingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han
261

Die Abstraktion von Formprimitiven, die komplexe 3D-Formen in einfache geometrische Elemente zerlegt, spielt eine entscheidende Rolle in der menschlichen visuellen Wahrnehmung und findet breite Anwendung in der Computer Vision und Grafik. Obwohl die jüngsten Fortschritte in der 3D-Inhaltsgenerierung bemerkenswerte Fortschritte gezeigt haben, stützen sich bestehende Methoden zur Primitivabstraktion entweder auf geometrische Optimierung mit begrenztem semantischem Verständnis oder lernen aus kleinen, kategoriespezifischen Datensätzen, was die Generalisierung über verschiedene Formkategorien hinweg erschwert. Wir stellen PrimitiveAnything vor, ein neuartiges Framework, das die Abstraktion von Formprimitiven als Aufgabe der Primitivassemblierung neu formuliert. PrimitiveAnything umfasst einen formbedingten Primitiv-Transformer für die autoregressive Generierung und ein eindeutiges Parametrisierungsschema, um verschiedene Arten von Primitiven einheitlich darzustellen. Das vorgeschlagene Framework lernt den Prozess der Primitivassemblierung direkt aus groß angelegten, von Menschen erstellten Abstraktionen, wodurch es erfassen kann, wie Menschen komplexe Formen in primitive Elemente zerlegen. Durch umfangreiche Experimente zeigen wir, dass PrimitiveAnything hochwertige Primitivassemblierungen generieren kann, die besser mit der menschlichen Wahrnehmung übereinstimmen und gleichzeitig die geometrische Treue über verschiedene Formkategorien hinweg bewahren. Es profitiert verschiedene 3D-Anwendungen und zeigt Potenzial für die Ermöglichung von primitivbasierter, benutzergenerierter Inhalte (UGC) in Spielen. Projektseite: https://primitiveanything.github.io

OpenVision: Eine vollständig offene, kosteneffiziente Familie fortschrittlicher Vision-Encoder für multimodales Lernen
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7, 2025
Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
261

OpenAIs CLIP, das Anfang 2021 veröffentlicht wurde, war lange die bevorzugte Wahl als Vision-Encoder für den Aufbau multimodaler Basismodelle. Obwohl neuere Alternativen wie SigLIP begonnen haben, diesen Status quo in Frage zu stellen, sind unserer Kenntnis nach keine vollständig offen: Ihre Trainingsdaten bleiben proprietär und/oder ihre Trainingsmethoden werden nicht veröffentlicht. Diese Arbeit schließt diese Lücke mit OpenVision, einer vollständig offenen, kosteneffizienten Familie von Vision-Encodern, die die Leistung von OpenAIs CLIP bei der Integration in multimodale Frameworks wie LLaVA erreichen oder übertreffen. OpenVision baut auf bestehenden Arbeiten auf – z. B. CLIPS für das Trainingsframework und Recap-DataComp-1B für die Trainingsdaten – und offenbart dabei mehrere wichtige Erkenntnisse zur Verbesserung der Encoder-Qualität und zeigt praktische Vorteile bei der Weiterentwicklung multimodaler Modelle. Durch die Veröffentlichung von Vision-Encodern mit Parametern von 5,9M bis 632,1M bietet OpenVision Praktikern eine flexible Abwägung zwischen Kapazität und Effizienz beim Aufbau multimodaler Modelle: Größere Modelle liefern eine verbesserte multimodale Leistung, während kleinere Versionen leichte, edge-fähige multimodale Implementierungen ermöglichen.

R&B: Domänen-Neugruppierung und Datenmischungsausgleich für effizientes Training von Foundation-Modellen
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1, 2025
Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala
251

Datenmischstrategien haben die Kosten für das Training von Sprachmodellen erfolgreich reduziert. Obwohl vielversprechend, weisen solche Methoden zwei Schwächen auf. Erstens basieren sie auf vordefinierten Datenbereichen (z. B. Datenquellen, Aufgabentypen), die möglicherweise kritische semantische Nuancen nicht erfassen und somit Leistungspotenzial ungenutzt lassen. Zweitens skalieren diese Methoden mit der Anzahl der Bereiche in einer rechnerisch unvertretbaren Weise. Wir adressieren diese Herausforderungen durch R&B, ein Framework, das Trainingsdaten basierend auf semantischer Ähnlichkeit neu partitioniert (Regroup), um feiner abgestufte Bereiche zu schaffen, und die Datenzusammensetzung effizient optimiert (Balance), indem eine Gram-Matrix genutzt wird, die durch Domänengradienten während des Trainings induziert wird. Im Gegensatz zu früheren Arbeiten entfällt die Notwendigkeit zusätzlicher Rechenleistung, um Bewertungsinformationen wie Verluste oder Gradienten zu erhalten. Wir analysieren diese Technik unter Standard-Regularitätsbedingungen und liefern theoretische Einblicke, die die Effektivität von R&B im Vergleich zu nicht-adaptiven Mischansätzen rechtfertigen. Empirisch demonstrieren wir die Wirksamkeit von R&B auf fünf verschiedenen Datensätzen, die von natürlicher Sprache über logisches Denken bis hin zu multimodalen Aufgaben reichen. Mit nur 0,01 % zusätzlichem Rechenaufwand erreicht oder übertrifft R&B die Leistung modernster Datenmischstrategien.

Jenseits der Erkennung: Bewertung der visuellen Perspektivenübernahme in Vision-Sprach-Modellen
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3, 2025
Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
241

Wir untersuchen die Fähigkeit von Vision-Language-Modellen (VLMs), visuelle Perspektivübernahme durchzuführen, anhand eines neuartigen Satzes visueller Aufgaben, die von etablierten menschlichen Tests inspiriert sind. Unser Ansatz nutzt sorgfältig kontrollierte Szenen, in denen eine einzelne humanoide Minifigur mit einem einzelnen Objekt kombiniert wird. Durch systematische Variation räumlicher Konfigurationen – wie der Objektposition relativ zur humanoiden Minifigur und der Ausrichtung der humanoiden Minifigur – sowie die Verwendung von Vogelperspektiven und Oberflächenansichten haben wir 144 einzigartige visuelle Aufgaben erstellt. Jede visuelle Aufgabe wird mit einer Reihe von 7 diagnostischen Fragen gepaart, die darauf abzielen, drei Ebenen der visuellen Kognition zu bewerten: Szenenverständnis, räumliches Denken und visuelle Perspektivübernahme. Unsere Bewertung mehrerer state-of-the-art Modelle, darunter GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct und Varianten von Claude Sonnet, zeigt, dass sie zwar im Szenenverständnis hervorragend abschneiden, die Leistung jedoch beim räumlichen Denken deutlich abnimmt und bei der Perspektivübernahme weiter abfällt. Unsere Analyse deutet auf eine Lücke zwischen der oberflächlichen Objekterkennung und dem tieferen räumlichen und perspektivischen Denken hin, das für komplexe visuelle Aufgaben erforderlich ist, und weist auf die Notwendigkeit hin, explizite geometrische Darstellungen und maßgeschneiderte Trainingsprotokolle in die zukünftige Entwicklung von VLMs zu integrieren.

Benchmarking der Schwarmintelligenz von LLMs
Benchmarking LLMs' Swarm intelligence

May 7, 2025
Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
180

Große Sprachmodelle (LLMs) zeigen Potenzial für komplexes Denken, doch ihre Fähigkeit zur emergenten Koordination in Multi-Agenten-Systemen (MAS) unter strengen Einschränkungen – wie begrenzter lokaler Wahrnehmung und Kommunikation, wie sie für natürliche Schwärme charakteristisch sind – bleibt weitgehend unerforscht, insbesondere in Bezug auf die Nuancen der Schwarmintelligenz. Bestehende Benchmarks erfassen oft nicht vollständig die einzigartigen Herausforderungen der dezentralen Koordination, die entstehen, wenn Agenten mit unvollständiger räumlich-zeitlicher Information operieren. Um diese Lücke zu schließen, führen wir SwarmBench ein, einen neuartigen Benchmark, der darauf abzielt, die Schwarmintelligenz-Fähigkeiten von LLMs als dezentrale Agenten systematisch zu bewerten. SwarmBench umfasst fünf grundlegende MAS-Koordinationsaufgaben in einer konfigurierbaren 2D-Grid-Umgebung, die Agenten zwingt, sich hauptsächlich auf lokale sensorische Eingaben (k x k Sicht) und lokale Kommunikation zu verlassen. Wir schlagen Metriken für die Koordinationseffektivität vor und analysieren emergente Gruppendynamiken. Bei der Bewertung mehrerer führender LLMs in einer Zero-Shot-Einstellung finden wir signifikante Leistungsunterschiede über die Aufgaben hinweg, die die Schwierigkeiten durch lokale Informationsbeschränkungen hervorheben. Während sich einige Koordination zeigt, deuten die Ergebnisse auf Einschränkungen bei der robusten Planung und Strategiebildung unter Unsicherheit in diesen dezentralen Szenarien hin. Die Bewertung von LLMs unter schwarmähnlichen Bedingungen ist entscheidend, um ihr Potenzial in zukünftigen dezentralen Systemen zu realisieren. Wir veröffentlichen SwarmBench als ein offenes, erweiterbares Toolkit – basierend auf einem anpassbaren und skalierbaren physikalischen System mit definierten mechanischen Eigenschaften. Es bietet Umgebungen, Prompts, Bewertungsskripte und die umfassenden experimentellen Datensätze, die generiert wurden, mit dem Ziel, reproduzierbare Forschung in LLM-basierte MAS-Koordination und die theoretischen Grundlagen von Embodied MAS zu fördern. Unser Code-Repository ist verfügbar unter https://github.com/x66ccff/swarmbench.

Jenseits des Theorembeweises: Formulierung, Rahmenwerk und Benchmark für formales Problemlösen
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7, 2025
Qi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan
111

Als eine scheinbar selbsterklärende Aufgabe ist Problemlösen ein wesentlicher Bestandteil von Wissenschaft und Technik. Dennoch fehlt eine allgemeine, aber konkrete Formulierung des Problemlösens selbst. Mit der jüngsten Entwicklung von KI-basierten Problemlösungsagenten steigt die Nachfrage nach Prozessverifizierbarkeit rapide an, bleibt jedoch untererforscht. Um diese Lücken zu schließen, präsentieren wir eine prinzipielle Formulierung des Problemlösens als deterministischen Markov-Entscheidungsprozess; ein neuartiges Framework, FPS (Formal Problem-Solving), das bestehende FTP-Umgebungen (Formal Theorem Proving) nutzt, um prozessverifiziertes Problemlösen durchzuführen; und D-FPS (Deductive FPS), das Lösen und Antwortverifizierung entkoppelt, um eine bessere menschliche Ausrichtung zu erreichen. Die Ausdrucksstärke, Korrektheit und Vollständigkeit der Frameworks werden nachgewiesen. Wir konstruieren drei Benchmarks für Problemlösen: FormalMath500, eine Formalisierung einer Teilmenge des MATH500-Benchmarks; MiniF2F-Solving und PutnamBench-Solving, Anpassungen der FTP-Benchmarks MiniF2F und PutnamBench. Für eine treue, interpretierbare und menschlich ausgerichtete Bewertung schlagen wir RPE (Restricted Propositional Equivalence) vor, einen symbolischen Ansatz zur Bestimmung der Korrektheit von Antworten durch formale Verifizierung. Wir evaluieren vier verbreitete FTP-Modelle und zwei Prompting-Methoden als Baselines, die höchstens 23,77 % von FormalMath500, 27,47 % von MiniF2F-Solving und 0,31 % von PutnamBench-Solving lösen.

OmniGIRL: Ein multilingualer und multimodaler Benchmark für die GitHub-Issue-Lösung
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7, 2025
Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
91

Die Aufgabe zur Behebung von GitHub-Issues zielt darauf ab, in Repositories gemeldete Probleme automatisch zu lösen. Mit den Fortschritten bei großen Sprachmodellen (LLMs) hat diese Aufgabe zunehmend Aufmerksamkeit erlangt, und es wurden mehrere Benchmarks vorgeschlagen, um die Fähigkeit von LLMs zur Behebung von Issues zu bewerten. Allerdings weisen bestehende Benchmarks drei Hauptbeschränkungen auf. Erstens konzentrieren sich aktuelle Benchmarks auf eine einzelne Programmiersprache, was die Bewertung von Issues aus Repositories unterschiedlicher Sprachen einschränkt. Zweitens decken sie in der Regel nur einen engen Bereich von Domänen ab, was möglicherweise die Vielfalt realer Probleme nicht ausreichend repräsentiert. Drittens stützen sich bestehende Benchmarks ausschließlich auf textuelle Informationen in Issue-Beschreibungen und vernachlässigen multimodale Informationen wie Bilder in Issues. In diesem Artikel schlagen wir OmniGIRL vor, einen Benchmark zur Behebung von GitHub-Issues, der mehrsprachig, multimodal und multidisziplinär ist. OmniGIRL umfasst 959 Aufgabeninstanzen, die aus Repositories in vier Programmiersprachen (d. h. Python, JavaScript, TypeScript und Java) und acht verschiedenen Domänen gesammelt wurden. Unsere Auswertung zeigt, dass aktuelle LLMs bei OmniGIRL nur begrenzte Leistungen erbringen. Bemerkenswerterweise löst das leistungsstärkste Modell, GPT-4o, nur 8,6 % der Issues. Darüber hinaus stellen wir fest, dass aktuelle LLMs Schwierigkeiten haben, Issues zu lösen, die das Verständnis von Bildern erfordern. Die beste Leistung erzielt Claude-3.5-Sonnet, das nur 10,5 % der Issues mit Bildinformationen löst. Schließlich analysieren wir die Gründe für das Scheitern aktueller LLMs bei OmniGIRL und geben Einblicke für zukünftige Verbesserungen.

OpenHelix: Eine Kurzübersicht, empirische Analyse und ein Open-Source-Dual-System-VLA-Modell für die robotische Manipulation
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6, 2025
Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang
81

Dual-System-VLA-Architekturen (Vision-Language-Action) sind zu einem zentralen Thema in der Forschung zur verkörperten Intelligenz geworden, jedoch mangelt es an ausreichenden Open-Source-Arbeiten für weitere Leistungsanalysen und Optimierungen. Um dieses Problem zu adressieren, wird dieses Papier die strukturellen Designs bestehender Dual-System-Architekturen zusammenfassen und vergleichen sowie systematische empirische Bewertungen der Kerndesignelemente bestehender Dual-System-Architekturen durchführen. Letztendlich wird es ein kostengünstiges Open-Source-Modell für weitere Untersuchungen bereitstellen. Selbstverständlich wird dieses Projekt kontinuierlich mit weiteren experimentellen Ergebnissen und Open-Source-Modellen mit verbesserter Leistung aktualisiert, die allen zur Auswahl stehen. Projektseite: https://openhelix-robot.github.io/.

Wissensgestütztes Lösen komplexer Probleme mit großen Sprachmodellen: Ein Überblick
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6, 2025
Da Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen
81

Problemlösung war ein grundlegender Treiber des menschlichen Fortschritts in zahlreichen Bereichen. Mit den Fortschritten in der künstlichen Intelligenz sind Large Language Models (LLMs) als leistungsstarke Werkzeuge hervorgegangen, die in der Lage sind, komplexe Probleme in verschiedenen Domänen zu bewältigen. Im Gegensatz zu traditionellen rechenbasierten Systemen kombinieren LLMs rohe Rechenleistung mit einer Annäherung an menschliches Denken, wodurch sie Lösungen generieren, Schlussfolgerungen ziehen und sogar externe Rechenwerkzeuge nutzen können. Die Anwendung von LLMs auf die reale Problemlösung birgt jedoch erhebliche Herausforderungen, darunter mehrstufiges Denken, die Integration von Domänenwissen und die Überprüfung von Ergebnissen. Diese Übersichtsarbeit untersucht die Fähigkeiten und Grenzen von LLMs bei der Lösung komplexer Probleme und betrachtet Techniken wie Chain-of-Thought (CoT)-Denken, Wissenserweiterung sowie verschiedene LLM-basierte und werkzeuggestützte Überprüfungsmethoden. Darüber hinaus beleuchten wir domänenspezifische Herausforderungen in Bereichen wie Softwareentwicklung, mathematischem Denken und Beweisen, Datenanalyse und Modellierung sowie wissenschaftlicher Forschung. Die Arbeit diskutiert weiterhin die grundlegenden Grenzen der aktuellen LLM-Lösungen und zukünftige Richtungen der LLM-basierten Lösung komplexer Probleme aus der Perspektive von mehrstufigem Denken, Domänenwissenintegration und Ergebnisüberprüfung.

OSUniverse: Benchmark für multimodale GUI-Navigations-KI-Agenten
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6, 2025
Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
71

In diesem Artikel stellen wir OSUniverse vor: einen Benchmark für komplexe, multimodale, desktoporientierte Aufgaben für fortgeschrittene KI-Agenten zur GUI-Navigation, der sich auf Benutzerfreundlichkeit, Erweiterbarkeit, umfassende Abdeckung von Testfällen und automatisierte Validierung konzentriert. Wir unterteilen die Aufgaben in zunehmende Schwierigkeitsgrade, von einfachen Präzisionsklicks bis hin zu mehrstufigen, anwendungsübergreifenden Tests, die Geschicklichkeit, Präzision und klares Denken des Agenten erfordern. In der hier vorgestellten ersten Version des Benchmarks haben wir die Komplexität der Testfälle so kalibriert, dass die State-of-the-Art (SOTA) Agenten (zum Zeitpunkt der Veröffentlichung) keine Ergebnisse über 50 % erzielen, während der durchschnittliche Büroangestellte alle diese Aufgaben mit perfekter Genauigkeit ausführen kann. Der Benchmark kann manuell bewertet werden, wir führen jedoch auch einen automatisierten Validierungsmechanismus ein, der eine durchschnittliche Fehlerrate von weniger als 2 % aufweist. Daher bietet dieser Benchmark eine solide Grundlage für die vollständig automatisierte Messung von Fortschritt, Fähigkeiten und der Effektivität von KI-Agenten zur GUI-Navigation im kurz- und mittelfristigen Horizont. Der Quellcode des Benchmarks ist unter https://github.com/agentsea/osuniverse verfügbar.

AutoLibra: Metrikinduktion für Agenten aus offenem Feedback
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5, 2025
Hao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang
32

Agenten werden hauptsächlich über Aufgaben-Erfolgsmetriken bewertet und optimiert, die grob sind, auf manuellen Entwürfen von Experten basieren und es versäumen, intermediäre emergente Verhaltensweisen zu belohnen. Wir schlagen AutoLibra vor, ein Framework zur Bewertung von Agenten, das offenes menschliches Feedback, wie z.B. „Wenn du feststellst, dass der Button deaktiviert ist, klicke ihn nicht erneut“ oder „Dieser Agent hat zu viel Autonomie, um selbstständig zu entscheiden, was zu tun ist“, in Metriken zur Bewertung feingranularer Verhaltensweisen in Agenten-Trajektorien umwandelt. AutoLibra erreicht dies, indem es Feedback auf das Verhalten eines Agenten abstützt, ähnliche positive und negative Verhaltensweisen clustert und konkrete Metriken mit klaren Definitionen und konkreten Beispielen erstellt, die zur Prompting von LLM-as-a-Judge als Bewerter verwendet werden können. Wir schlagen weiterhin zwei Meta-Metriken vor, um die Ausrichtung einer Menge von (induzierten) Metriken auf offenes Feedback zu bewerten: „Abdeckung“ und „Redundanz“. Durch die Optimierung dieser Meta-Metriken demonstrieren wir experimentell die Fähigkeit von AutoLibra, konkretere Bewertungsmetriken für Agenten zu induzieren als die in früheren Agenten-Bewertungsbenchmarks vorgeschlagenen, und neue Metriken zur Analyse von Agenten zu entdecken. Wir präsentieren auch zwei Anwendungen von AutoLibra zur Verbesserung von Agenten: Erstens zeigen wir, dass durch AutoLibra induzierte Metriken bessere Ziele für das Prompt-Engineering darstellen als die Aufgaben-Erfolgsrate bei einer Vielzahl von Textspiel-Aufgaben, wodurch die Agentenleistung im Vergleich zur Baseline im Durchschnitt um 20 % verbessert wird. Zweitens zeigen wir, dass AutoLibra iterativ hochwertige Feinabstimmungsdaten für Web-Navigationsagenten auswählen kann. Unsere Ergebnisse deuten darauf hin, dass AutoLibra ein leistungsstarkes, aufgabenunabhängiges Werkzeug zur Bewertung und Verbesserung von Sprachagenten ist.

Unsicherheitsgewichtete Bild-Ereignis-Multimodale Fusion zur Videoanomalieerkennung
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5, 2025
Sungheon Jeong, Jihong Park, Mohsen Imani
31

Die meisten bestehenden Video-Anomalie-Detektoren verlassen sich ausschließlich auf RGB-Bilder, denen die zeitliche Auflösung fehlt, um abrupte oder vorübergehende Bewegungsmerkmale zu erfassen, die als Schlüsselindikatoren für anomale Ereignisse gelten. Um diese Einschränkung zu überwinden, schlagen wir Image-Event Fusion for Video Anomaly Detection (IEF-VAD) vor, ein Framework, das Ereignisdarstellungen direkt aus RGB-Videos synthetisiert und sie über einen prinzipiellen, unsicherheitsbewussten Prozess mit Bildmerkmalen fusioniert. Das System (i) modelliert stark verteilte Sensorenrauschen mit einer Student-t-Wahrscheinlichkeit und leitet wertbasierte inverse Varianzgewichte über eine Laplace-Approximation ab; (ii) wendet Kalman-artige, bildweise Aktualisierungen an, um die Modalitäten über die Zeit auszugleichen; und (iii) verfeinert iterativ den fusionierten latenten Zustand, um verbleibendes modulübergreifendes Rauschen zu entfernen. Ohne spezielle Ereignissensoren oder bildweise Annotationen setzt IEF-VAD neue Maßstäbe in mehreren realen Anomalie-Detektions-Benchmarks. Diese Ergebnisse unterstreichen den Nutzen synthetischer Ereignisdarstellungen, um Bewegungsmerkmale hervorzuheben, die in RGB-Bildern oft unterrepräsentiert sind, und ermöglichen so eine präzise und robuste Videoanalyse in diversen Anwendungen, ohne spezielle Ereignissensoren zu benötigen. Code und Modelle sind verfügbar unter https://github.com/EavnJeong/IEF-VAD.

COSMOS: Vorhersehbare und kosteneffiziente Anpassung von LLMs
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30, 2025
Jiayu Wang, Aws Albarghouthi, Frederic Sala
31

Große Sprachmodelle (LLMs) erzielen bemerkenswerte Leistungen in zahlreichen Aufgaben durch den Einsatz einer Vielzahl von Adaptionsstrategien. Die optimale Auswahl eines Modells und einer Adaptionsstrategie unter Ressourcenbeschränkungen ist jedoch herausfordernd und erfordert oft umfangreiche Experimente. Wir untersuchen, ob es möglich ist, sowohl die Leistung als auch die Kosten genau vorherzusagen, ohne kostspielige Versuche durchzuführen. Wir formalisieren das Problem der Strategieauswahl für LLMs und führen COSMOS ein, ein einheitliches Vorhersageframework, das die Ergebnisse von Adaptionen effizient und mit minimalem Aufwand schätzt. Wir instanziieren und untersuchen die Fähigkeiten unseres Frameworks anhand zweier leistungsstarker Vorhersagemodelle: embedding-augmentierte, leichtgewichtige Proxy-Modelle zur Vorhersage der Feinabstimmungsleistung und Skalierungsgesetze mit geringer Stichprobenanzahl zur Prognose des retrieval-augmentierten In-Context-Lernens. Eine umfassende Bewertung über acht repräsentative Benchmarks zeigt, dass COSMOS eine hohe Vorhersagegenauigkeit erreicht und dabei die Rechenkosten im Durchschnitt um 92,72 % und in ressourcenintensiven Szenarien sogar um bis zu 98,71 % reduziert. Unsere Ergebnisse zeigen, dass eine effiziente Vorhersage von Adaptionsergebnissen nicht nur machbar ist, sondern den Rechenaufwand für den Einsatz von LLMs erheblich verringern kann, während die Leistungsstandards erhalten bleiben.

RAIL: Regionenbewusstes instruktives Lernen für halbüberwachte Zahnsegmentierung in CBCT
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6, 2025
Chuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu
21

Semi-supervisedes Lernen hat sich zu einem überzeugenden Ansatz für die 3D-Zahnsegmentierung aus CBCT-Scans entwickelt, bei denen annotierte Daten nur begrenzt verfügbar sind. Bestehende Methoden stehen jedoch weiterhin vor zwei anhaltenden Herausforderungen: begrenzte korrigierende Überwachung in strukturell mehrdeutigen oder falsch annotierten Regionen während des überwachten Trainings sowie Leistungseinbußen durch unzuverlässige Pseudolabels auf nicht annotierten Daten. Um diese Probleme zu lösen, schlagen wir Region-Aware Instructive Learning (RAIL) vor, ein semi-supervidiertes Framework mit einer Dual-Group-Dual-Student-Architektur. Jede Gruppe besteht aus zwei Schülermodellen, die von einem gemeinsamen Lehrernetzwerk geleitet werden. Durch abwechselndes Training zwischen den beiden Gruppen fördert RAIL den Wissenstransfer zwischen den Gruppen und eine kollaborative, regionsbewusste Anleitung, während gleichzeitig eine Überanpassung an die Eigenschaften eines einzelnen Modells reduziert wird. Konkret führt RAIL zwei instruktive Mechanismen ein. Der Disagreement-Focused Supervision (DFS) Controller verbessert das überwachte Lernen, indem er Vorhersagen nur in Bereichen anleitet, in denen die Ausgaben der Schüler sowohl von der Ground Truth als auch vom besten Schüler abweichen, wodurch die Überwachung auf strukturell mehrdeutige oder falsch annotierte Bereiche konzentriert wird. In der unüberwachten Phase verstärkt der Confidence-Aware Learning (CAL) Modulator die Übereinstimmung in Regionen mit hoher Modellsicherheit, während der Einfluss von Vorhersagen mit geringer Konfidenz während des Trainings reduziert wird. Dies verhindert, dass unser Modell instabile Muster lernt, und verbessert die Gesamtzuverlässigkeit der Pseudolabels. Umfangreiche Experimente auf vier CBCT-Zahnsegmentierungsdatensätzen zeigen, dass RAIL unter begrenzter Annotation state-of-the-art Methoden übertrifft. Unser Code wird unter https://github.com/Tournesol-Saturday/RAIL verfügbar sein.

Cognitio Emergens: Handlungsfähigkeit, Dimensionen und Dynamiken in der menschlich-KI-Wissensko-Kreation
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6, 2025
Xule Lin
11

Die Schaffung wissenschaftlichen Wissens unterliegt einer grundlegenden Transformation, da sich Menschen und KI-Systeme über reine Werkzeug-Nutzer-Beziehungen hinaus zu ko-evolutionären epistemischen Partnerschaften entwickeln. Als AlphaFold die Vorhersage von Proteinstrukturen revolutionierte, beschrieben Forscher die Zusammenarbeit mit einem epistemischen Partner, der ihre Konzeption grundlegender Zusammenhänge neu prägte. Dieser Artikel stellt Cognitio Emergens (CE) vor, ein Rahmenwerk, das kritische Grenzen bestehender Modelle adressiert, die sich auf statische Rollen oder enge Metriken konzentrieren, ohne zu erfassen, wie wissenschaftliches Verständnis durch rekursive Mensch-KI-Interaktion über die Zeit entsteht. CE integriert drei Komponenten, die diese Grenzen überwinden: Agency Configurations, die beschreiben, wie Autorität zwischen Menschen und KI verteilt wird (Direktiert, Beitragend, Partnerschaftlich), wobei Partnerschaften dynamisch zwischen Konfigurationen oszillieren, anstatt einem linearen Fortschritt zu folgen; Epistemic Dimensions, die sechs spezifische Fähigkeiten erfassen, die durch Zusammenarbeit über die Achsen Entdeckung, Integration und Projektion entstehen und charakteristische „Fähigkeitssignaturen“ bilden, die die Entwicklung leiten; und Partnership Dynamics, die Kräfte identifizieren, die die Entwicklung dieser Beziehungen prägen, insbesondere das Risiko der epistemischen Entfremdung, bei der Forscher die interpretative Kontrolle über Wissen verlieren, das sie formal unterstützen. Basierend auf der Autopoiesis-Theorie, der sozialen Systemtheorie und der organisatorischen Modularität zeigt CE, wie Wissensko-Kreation durch kontinuierliche Verhandlung von Rollen, Werten und Organisationsstrukturen entsteht. Indem CE die wissenschaftliche Zusammenarbeit zwischen Mensch und KI als grundsätzlich ko-evolutionär neu konzipiert, bietet es eine ausgewogene Perspektive, die weder unkritisch die Rolle der KI feiert noch unnötig davor fürchtet, sondern konzeptionelle Werkzeuge zur Kultivierung von Partnerschaften bereitstellt, die eine sinnvolle menschliche Beteiligung bewahren und gleichzeitig transformative wissenschaftliche Durchbrüche ermöglichen.

May 7
May 8
May 9