Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Multimodale Große Sprachmodell (MLLM) erfährt derzeit ein rasantes Wachstum, angetrieben durch die fortgeschrittenen Fähigkeiten von LLMs. Im Gegensatz zu früheren Spezialisten entwickeln sich bestehende MLLMs hin zu einem Paradigma des Multimodalen Generalisten. Ursprünglich auf das Verständnis mehrerer Modalitäten beschränkt, haben diese Modelle Fortschritte gemacht, um nicht nur zu verstehen, sondern auch über Modalitäten hinweg zu generieren. Ihre Fähigkeiten haben sich von grob- zu feinkörniger multimodaler Wahrnehmung erweitert und von der Unterstützung begrenzter Modalitäten zu beliebigen Modalitäten. Während es viele Benchmarks gibt, um MLLMs zu bewerten, stellt sich eine kritische Frage: Können wir einfach davon ausgehen, dass eine höhere Leistung über verschiedene Aufgaben hinweg auf eine stärkere MLLM-Fähigkeit hinweist und uns näher an KI auf menschlichem Niveau bringt? Wir argumentieren, dass die Antwort nicht so einfach ist, wie sie scheint. Dieses Projekt stellt General-Level vor, ein Bewertungsrahmen, der 5-stufige Leistungs- und Allgemeinheitsniveaus von MLLMs definiert und eine Methodik bietet, um MLLMs zu vergleichen und den Fortschritt bestehender Systeme hin zu robusteren multimodalen Generalisten und letztlich hin zu AGI zu messen. Im Kern des Rahmens steht das Konzept der Synergie, das misst, ob Modelle konsistente Fähigkeiten über Verständnis und Generierung sowie über mehrere Modalitäten hinweg beibehalten. Um diese Bewertung zu unterstützen, präsentieren wir General-Bench, das ein breiteres Spektrum an Fähigkeiten, Modalitäten, Formaten und Kapazitäten umfasst, einschließlich über 700 Aufgaben und 325.800 Instanzen. Die Bewertungsergebnisse, die über 100 bestehende state-of-the-art MLLMs einbeziehen, enthüllen die Fähigkeitsrangfolge der Generalisten und heben die Herausforderungen bei der Erreichung echter KI hervor. Wir erwarten, dass dieses Projekt den Weg für zukünftige Forschung zu multimodalen Grundmodellen der nächsten Generation ebnet und eine robuste Infrastruktur bietet, um die Verwirklichung von AGI zu beschleunigen. Projektseite: https://generalist.top/
Große Sprachmodelle (LLMs) neigen zu Halluzinationen, und Retrieval-Augmented Generation (RAG) hilft dabei, dies zu mildern, jedoch mit hohem Rechenaufwand und dem Risiko von Fehlinformationen. Adaptive Retrieval zielt darauf ab, nur bei Bedarf Informationen abzurufen, aber bestehende Ansätze stützen sich auf unsichere Schätzungen durch LLMs, die ineffizient und unpraktisch bleiben. In dieser Studie führen wir leichte, LLM-unabhängige adaptive Retrieval-Methoden ein, die auf externen Informationen basieren. Wir untersuchten 27 Merkmale, die in 7 Gruppen organisiert sind, sowie deren hybride Kombinationen. Wir bewerteten diese Methoden anhand von 6 Frage-Antwort-Datensätzen und analysierten die Leistung und Effizienz der QA-Systeme. Die Ergebnisse zeigen, dass unser Ansatz die Leistung komplexer LLM-basierter Methoden erreicht, während er erhebliche Effizienzgewinne erzielt, was das Potenzial externer Informationen für adaptives Retrieval demonstriert.
In den letzten Jahren gab es bemerkenswerte Fortschritte sowohl bei multimodalen Verständnismodellen als auch bei Bildgenerierungsmodellen. Trotz ihrer jeweiligen Erfolge haben sich diese beiden Domänen unabhängig voneinander entwickelt, was zu unterschiedlichen architektonischen Paradigmen geführt hat: Während autoregressive Architekturen das multimodale Verständnis dominiert haben, sind diffusionsbasierte Modelle zum Eckpfeiler der Bildgenerierung geworden. In jüngster Zeit wächst das Interesse an der Entwicklung einheitlicher Frameworks, die diese Aufgaben integrieren. Die neuen Fähigkeiten von GPT-4o verdeutlichen diesen Trend und unterstreichen das Potenzial für eine Vereinheitlichung. Die architektonischen Unterschiede zwischen den beiden Domänen stellen jedoch erhebliche Herausforderungen dar. Um einen klaren Überblick über die aktuellen Bemühungen zur Vereinheitlichung zu geben, präsentieren wir eine umfassende Übersicht, die zukünftige Forschungen leiten soll. Zunächst führen wir die grundlegenden Konzepte und jüngsten Fortschritte in multimodalen Verständnis- und Text-zu-Bild-Generierungsmodellen ein. Anschließend überprüfen wir bestehende einheitliche Modelle und kategorisieren sie in drei Hauptarchitekturparadigmen: diffusionsbasierte, autoregressive und hybride Ansätze, die autoregressive und Diffusionsmechanismen kombinieren. Für jede Kategorie analysieren wir die strukturellen Designs und Innovationen, die von verwandten Arbeiten eingeführt wurden. Darüber hinaus stellen wir Datensätze und Benchmarks zusammen, die speziell für einheitliche Modelle entwickelt wurden, und bieten Ressourcen für zukünftige Untersuchungen. Schließlich diskutieren wir die wichtigsten Herausforderungen in diesem jungen Bereich, einschließlich Tokenisierungsstrategie, cross-modaler Aufmerksamkeit und Daten. Da sich dieses Gebiet noch in einem frühen Stadium befindet, erwarten wir rasche Fortschritte und werden diese Übersicht regelmäßig aktualisieren. Unser Ziel ist es, weitere Forschungen zu inspirieren und der Community eine wertvolle Referenz zu bieten. Die mit dieser Übersicht verbundenen Referenzen sind auf GitHub verfügbar (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
Effektive Informationssuche ist entscheidend, um die Fähigkeiten großer Sprachmodelle (LLMs) in Bezug auf Schlussfolgerungen und Generierung zu verbessern. Aktuelle Forschungen haben untersucht, wie Verstärkungslernen (Reinforcement Learning, RL) genutzt werden kann, um die Suchfähigkeiten von LLMs durch die Interaktion mit Live-Suchmaschinen in realen Umgebungen zu steigern. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, stehen sie vor zwei großen Herausforderungen: (1) Unkontrollierte Dokumentqualität: Die Qualität der von Suchmaschinen zurückgegebenen Dokumente ist oft unvorhersehbar, was Rauschen und Instabilität in den Trainingsprozess einführt. (2) Prohibitiv hohe API-Kosten: RL-Training erfordert häufige Rollouts, die potenziell Hunderttausende von Suchanfragen umfassen können, was erhebliche API-Kosten verursacht und die Skalierbarkeit stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir ZeroSearch vor, ein Reinforcement-Learning-Framework, das die Suchfähigkeiten von LLMs fördert, ohne mit echten Suchmaschinen zu interagieren. Unser Ansatz beginnt mit einem leichtgewichtigen, überwachten Feinabgleich, um das LLM in ein Retrieval-Modul zu verwandeln, das sowohl relevante als auch verrauschte Dokumente als Antwort auf eine Anfrage generieren kann. Während des RL-Trainings verwenden wir eine curriculum-basierte Rollout-Strategie, die die Qualität der generierten Dokumente schrittweise verschlechtert und so die Fähigkeit des Modells zur Schlussfolgerung allmählich fördert, indem es zunehmend anspruchsvollen Retrieval-Szenarien ausgesetzt wird. Umfangreiche Experimente zeigen, dass ZeroSearch die Suchfähigkeiten von LLMs effektiv fördert, wobei ein 3B-LLM als Retrieval-Modul verwendet wird. Bemerkenswerterweise erreicht ein 7B-Retrieval-Modul eine vergleichbare Leistung wie eine echte Suchmaschine, während ein 14B-Retrieval-Modul diese sogar übertrifft. Darüber hinaus generalisiert es gut über Basis- und instruktionsfeinabgestimmte Modelle verschiedener Parametergrößen hinweg und ist mit einer Vielzahl von RL-Algorithmen kompatibel.
Die personalisierte Videogenerierung zielt darauf ab, Videos mit spezifischen Subjekten unter flexiblen, benutzerdefinierten Bedingungen zu erzeugen, doch bestehende Methoden kämpfen oft mit Identitätskonsistenz und begrenzten Eingabemodalitäten. In diesem Artikel stellen wir HunyuanCustom vor, ein multimodales Framework zur personalisierten Videogenerierung, das die Subjektkonsistenz betont und gleichzeitig Bild-, Audio-, Video- und Textbedingungen unterstützt. Basierend auf HunyuanVideo adressiert unser Modell zunächst die Aufgabe der bild-text-basierten Generierung durch die Einführung eines Text-Bild-Fusionsmoduls, das auf LLaVA basiert, um das multimodale Verständnis zu verbessern, sowie eines Bild-ID-Verstärkungsmoduls, das zeitliche Verkettung nutzt, um Identitätsmerkmale über Frames hinweg zu verstärken. Um die audio- und videobasierte Generierung zu ermöglichen, schlagen wir weiterhin modalitätsspezifische Bedingungsinjektionsmechanismen vor: ein AudioNet-Modul, das hierarchische Ausrichtung über räumliche Kreuzaufmerksamkeit erreicht, und ein videogesteuertes Injektionsmodul, das latent-komprimierte Bedingungsvideos über ein Patchify-basiertes Feature-Alignment-Netzwerk integriert. Umfangreiche Experimente in Einzel- und Mehrsubjektszenarien zeigen, dass HunyuanCustom in Bezug auf ID-Konsistenz, Realismus und Text-Video-Ausrichtung deutlich besser abschneidet als state-of-the-art Open- und Closed-Source-Methoden. Darüber hinaus validieren wir seine Robustheit in nachgelagerten Aufgaben, einschließlich der audio- und videogesteuerten personalisierten Videogenerierung. Unsere Ergebnisse unterstreichen die Wirksamkeit multimodaler Bedingungen und identitätsbewahrender Strategien bei der Weiterentwicklung kontrollierbarer Videogenerierung. Der gesamte Code und die Modelle sind unter https://hunyuancustom.github.io verfügbar.
Die Abstraktion von Formprimitiven, die komplexe 3D-Formen in einfache geometrische Elemente zerlegt, spielt eine entscheidende Rolle in der menschlichen visuellen Wahrnehmung und findet breite Anwendung in der Computer Vision und Grafik. Obwohl die jüngsten Fortschritte in der 3D-Inhaltsgenerierung bemerkenswerte Fortschritte gezeigt haben, stützen sich bestehende Methoden zur Primitivabstraktion entweder auf geometrische Optimierung mit begrenztem semantischem Verständnis oder lernen aus kleinen, kategoriespezifischen Datensätzen, was die Generalisierung über verschiedene Formkategorien hinweg erschwert. Wir stellen PrimitiveAnything vor, ein neuartiges Framework, das die Abstraktion von Formprimitiven als Aufgabe der Primitivassemblierung neu formuliert. PrimitiveAnything umfasst einen formbedingten Primitiv-Transformer für die autoregressive Generierung und ein eindeutiges Parametrisierungsschema, um verschiedene Arten von Primitiven einheitlich darzustellen. Das vorgeschlagene Framework lernt den Prozess der Primitivassemblierung direkt aus groß angelegten, von Menschen erstellten Abstraktionen, wodurch es erfassen kann, wie Menschen komplexe Formen in primitive Elemente zerlegen. Durch umfangreiche Experimente zeigen wir, dass PrimitiveAnything hochwertige Primitivassemblierungen generieren kann, die besser mit der menschlichen Wahrnehmung übereinstimmen und gleichzeitig die geometrische Treue über verschiedene Formkategorien hinweg bewahren. Es profitiert verschiedene 3D-Anwendungen und zeigt Potenzial für die Ermöglichung von primitivbasierter, benutzergenerierter Inhalte (UGC) in Spielen. Projektseite: https://primitiveanything.github.io
OpenAIs CLIP, das Anfang 2021 veröffentlicht wurde, war lange die bevorzugte Wahl als Vision-Encoder für den Aufbau multimodaler Basismodelle. Obwohl neuere Alternativen wie SigLIP begonnen haben, diesen Status quo in Frage zu stellen, sind unserer Kenntnis nach keine vollständig offen: Ihre Trainingsdaten bleiben proprietär und/oder ihre Trainingsmethoden werden nicht veröffentlicht. Diese Arbeit schließt diese Lücke mit OpenVision, einer vollständig offenen, kosteneffizienten Familie von Vision-Encodern, die die Leistung von OpenAIs CLIP bei der Integration in multimodale Frameworks wie LLaVA erreichen oder übertreffen. OpenVision baut auf bestehenden Arbeiten auf – z. B. CLIPS für das Trainingsframework und Recap-DataComp-1B für die Trainingsdaten – und offenbart dabei mehrere wichtige Erkenntnisse zur Verbesserung der Encoder-Qualität und zeigt praktische Vorteile bei der Weiterentwicklung multimodaler Modelle. Durch die Veröffentlichung von Vision-Encodern mit Parametern von 5,9M bis 632,1M bietet OpenVision Praktikern eine flexible Abwägung zwischen Kapazität und Effizienz beim Aufbau multimodaler Modelle: Größere Modelle liefern eine verbesserte multimodale Leistung, während kleinere Versionen leichte, edge-fähige multimodale Implementierungen ermöglichen.
Wir untersuchen die Fähigkeit von Vision-Language-Modellen (VLMs), visuelle Perspektivübernahme durchzuführen, anhand eines neuartigen Satzes visueller Aufgaben, die von etablierten menschlichen Tests inspiriert sind. Unser Ansatz nutzt sorgfältig kontrollierte Szenen, in denen eine einzelne humanoide Minifigur mit einem einzelnen Objekt kombiniert wird. Durch systematische Variation räumlicher Konfigurationen – wie der Objektposition relativ zur humanoiden Minifigur und der Ausrichtung der humanoiden Minifigur – sowie die Verwendung von Vogelperspektiven und Oberflächenansichten haben wir 144 einzigartige visuelle Aufgaben erstellt. Jede visuelle Aufgabe wird mit einer Reihe von 7 diagnostischen Fragen gepaart, die darauf abzielen, drei Ebenen der visuellen Kognition zu bewerten: Szenenverständnis, räumliches Denken und visuelle Perspektivübernahme. Unsere Bewertung mehrerer state-of-the-art Modelle, darunter GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct und Varianten von Claude Sonnet, zeigt, dass sie zwar im Szenenverständnis hervorragend abschneiden, die Leistung jedoch beim räumlichen Denken deutlich abnimmt und bei der Perspektivübernahme weiter abfällt. Unsere Analyse deutet auf eine Lücke zwischen der oberflächlichen Objekterkennung und dem tieferen räumlichen und perspektivischen Denken hin, das für komplexe visuelle Aufgaben erforderlich ist, und weist auf die Notwendigkeit hin, explizite geometrische Darstellungen und maßgeschneiderte Trainingsprotokolle in die zukünftige Entwicklung von VLMs zu integrieren.
Datenmischstrategien haben die Kosten für das Training von Sprachmodellen erfolgreich reduziert. Obwohl vielversprechend, weisen solche Methoden zwei Schwächen auf. Erstens basieren sie auf vordefinierten Datenbereichen (z. B. Datenquellen, Aufgabentypen), die möglicherweise kritische semantische Nuancen nicht erfassen und somit Leistungspotenzial ungenutzt lassen. Zweitens skalieren diese Methoden mit der Anzahl der Bereiche in einer rechnerisch unvertretbaren Weise. Wir adressieren diese Herausforderungen durch R&B, ein Framework, das Trainingsdaten basierend auf semantischer Ähnlichkeit neu partitioniert (Regroup), um feiner abgestufte Bereiche zu schaffen, und die Datenzusammensetzung effizient optimiert (Balance), indem eine Gram-Matrix genutzt wird, die durch Domänengradienten während des Trainings induziert wird. Im Gegensatz zu früheren Arbeiten entfällt die Notwendigkeit zusätzlicher Rechenleistung, um Bewertungsinformationen wie Verluste oder Gradienten zu erhalten. Wir analysieren diese Technik unter Standard-Regularitätsbedingungen und liefern theoretische Einblicke, die die Effektivität von R&B im Vergleich zu nicht-adaptiven Mischansätzen rechtfertigen. Empirisch demonstrieren wir die Wirksamkeit von R&B auf fünf verschiedenen Datensätzen, die von natürlicher Sprache über logisches Denken bis hin zu multimodalen Aufgaben reichen. Mit nur 0,01 % zusätzlichem Rechenaufwand erreicht oder übertrifft R&B die Leistung modernster Datenmischstrategien.
Große Sprachmodelle (LLMs) zeigen Potenzial für komplexes Denken, doch ihre Fähigkeit zur emergenten Koordination in Multi-Agenten-Systemen (MAS) unter strengen Einschränkungen – wie begrenzter lokaler Wahrnehmung und Kommunikation, wie sie für natürliche Schwärme charakteristisch sind – bleibt weitgehend unerforscht, insbesondere in Bezug auf die Nuancen der Schwarmintelligenz. Bestehende Benchmarks erfassen oft nicht vollständig die einzigartigen Herausforderungen der dezentralen Koordination, die entstehen, wenn Agenten mit unvollständiger räumlich-zeitlicher Information operieren. Um diese Lücke zu schließen, führen wir SwarmBench ein, einen neuartigen Benchmark, der darauf abzielt, die Schwarmintelligenz-Fähigkeiten von LLMs als dezentrale Agenten systematisch zu bewerten. SwarmBench umfasst fünf grundlegende MAS-Koordinationsaufgaben in einer konfigurierbaren 2D-Grid-Umgebung, die Agenten zwingt, sich hauptsächlich auf lokale sensorische Eingaben (k x k Sicht) und lokale Kommunikation zu verlassen. Wir schlagen Metriken für die Koordinationseffektivität vor und analysieren emergente Gruppendynamiken. Bei der Bewertung mehrerer führender LLMs in einer Zero-Shot-Einstellung finden wir signifikante Leistungsunterschiede über die Aufgaben hinweg, die die Schwierigkeiten durch lokale Informationsbeschränkungen hervorheben. Während sich einige Koordination zeigt, deuten die Ergebnisse auf Einschränkungen bei der robusten Planung und Strategiebildung unter Unsicherheit in diesen dezentralen Szenarien hin. Die Bewertung von LLMs unter schwarmähnlichen Bedingungen ist entscheidend, um ihr Potenzial in zukünftigen dezentralen Systemen zu realisieren. Wir veröffentlichen SwarmBench als ein offenes, erweiterbares Toolkit – basierend auf einem anpassbaren und skalierbaren physikalischen System mit definierten mechanischen Eigenschaften. Es bietet Umgebungen, Prompts, Bewertungsskripte und die umfassenden experimentellen Datensätze, die generiert wurden, mit dem Ziel, reproduzierbare Forschung in LLM-basierte MAS-Koordination und die theoretischen Grundlagen von Embodied MAS zu fördern. Unser Code-Repository ist verfügbar unter https://github.com/x66ccff/swarmbench.
Als eine scheinbar selbsterklärende Aufgabe ist Problemlösen ein wesentlicher Bestandteil von Wissenschaft und Technik. Dennoch fehlt eine allgemeine, aber konkrete Formulierung des Problemlösens selbst. Mit der jüngsten Entwicklung von KI-basierten Problemlösungsagenten steigt die Nachfrage nach Prozessverifizierbarkeit rapide an, bleibt jedoch untererforscht. Um diese Lücken zu schließen, präsentieren wir eine prinzipielle Formulierung des Problemlösens als deterministischen Markov-Entscheidungsprozess; ein neuartiges Framework, FPS (Formal Problem-Solving), das bestehende FTP-Umgebungen (Formal Theorem Proving) nutzt, um prozessverifiziertes Problemlösen durchzuführen; und D-FPS (Deductive FPS), das Lösen und Antwortverifizierung entkoppelt, um eine bessere menschliche Ausrichtung zu erreichen. Die Ausdrucksstärke, Korrektheit und Vollständigkeit der Frameworks werden nachgewiesen. Wir konstruieren drei Benchmarks für Problemlösen: FormalMath500, eine Formalisierung einer Teilmenge des MATH500-Benchmarks; MiniF2F-Solving und PutnamBench-Solving, Anpassungen der FTP-Benchmarks MiniF2F und PutnamBench. Für eine treue, interpretierbare und menschlich ausgerichtete Bewertung schlagen wir RPE (Restricted Propositional Equivalence) vor, einen symbolischen Ansatz zur Bestimmung der Korrektheit von Antworten durch formale Verifizierung. Wir evaluieren vier verbreitete FTP-Modelle und zwei Prompting-Methoden als Baselines, die höchstens 23,77 % von FormalMath500, 27,47 % von MiniF2F-Solving und 0,31 % von PutnamBench-Solving lösen.
Die Aufgabe zur Behebung von GitHub-Issues zielt darauf ab, in Repositories gemeldete Probleme automatisch zu lösen. Mit den Fortschritten bei großen Sprachmodellen (LLMs) hat diese Aufgabe zunehmend Aufmerksamkeit erlangt, und es wurden mehrere Benchmarks vorgeschlagen, um die Fähigkeit von LLMs zur Behebung von Issues zu bewerten. Allerdings weisen bestehende Benchmarks drei Hauptbeschränkungen auf. Erstens konzentrieren sich aktuelle Benchmarks auf eine einzelne Programmiersprache, was die Bewertung von Issues aus Repositories unterschiedlicher Sprachen einschränkt. Zweitens decken sie in der Regel nur einen engen Bereich von Domänen ab, was möglicherweise die Vielfalt realer Probleme nicht ausreichend repräsentiert. Drittens stützen sich bestehende Benchmarks ausschließlich auf textuelle Informationen in Issue-Beschreibungen und vernachlässigen multimodale Informationen wie Bilder in Issues. In diesem Artikel schlagen wir OmniGIRL vor, einen Benchmark zur Behebung von GitHub-Issues, der mehrsprachig, multimodal und multidisziplinär ist. OmniGIRL umfasst 959 Aufgabeninstanzen, die aus Repositories in vier Programmiersprachen (d. h. Python, JavaScript, TypeScript und Java) und acht verschiedenen Domänen gesammelt wurden. Unsere Auswertung zeigt, dass aktuelle LLMs bei OmniGIRL nur begrenzte Leistungen erbringen. Bemerkenswerterweise löst das leistungsstärkste Modell, GPT-4o, nur 8,6 % der Issues. Darüber hinaus stellen wir fest, dass aktuelle LLMs Schwierigkeiten haben, Issues zu lösen, die das Verständnis von Bildern erfordern. Die beste Leistung erzielt Claude-3.5-Sonnet, das nur 10,5 % der Issues mit Bildinformationen löst. Schließlich analysieren wir die Gründe für das Scheitern aktueller LLMs bei OmniGIRL und geben Einblicke für zukünftige Verbesserungen.
Dual-System-VLA-Architekturen (Vision-Language-Action) sind zu einem zentralen Thema in der Forschung zur verkörperten Intelligenz geworden, jedoch mangelt es an ausreichenden Open-Source-Arbeiten für weitere Leistungsanalysen und Optimierungen. Um dieses Problem zu adressieren, wird dieses Papier die strukturellen Designs bestehender Dual-System-Architekturen zusammenfassen und vergleichen sowie systematische empirische Bewertungen der Kerndesignelemente bestehender Dual-System-Architekturen durchführen. Letztendlich wird es ein kostengünstiges Open-Source-Modell für weitere Untersuchungen bereitstellen. Selbstverständlich wird dieses Projekt kontinuierlich mit weiteren experimentellen Ergebnissen und Open-Source-Modellen mit verbesserter Leistung aktualisiert, die allen zur Auswahl stehen. Projektseite: https://openhelix-robot.github.io/.
Problemlösung war ein grundlegender Treiber des menschlichen Fortschritts in zahlreichen Bereichen. Mit den Fortschritten in der künstlichen Intelligenz sind Large Language Models (LLMs) als leistungsstarke Werkzeuge hervorgegangen, die in der Lage sind, komplexe Probleme in verschiedenen Domänen zu bewältigen. Im Gegensatz zu traditionellen rechenbasierten Systemen kombinieren LLMs rohe Rechenleistung mit einer Annäherung an menschliches Denken, wodurch sie Lösungen generieren, Schlussfolgerungen ziehen und sogar externe Rechenwerkzeuge nutzen können. Die Anwendung von LLMs auf die reale Problemlösung birgt jedoch erhebliche Herausforderungen, darunter mehrstufiges Denken, die Integration von Domänenwissen und die Überprüfung von Ergebnissen. Diese Übersichtsarbeit untersucht die Fähigkeiten und Grenzen von LLMs bei der Lösung komplexer Probleme und betrachtet Techniken wie Chain-of-Thought (CoT)-Denken, Wissenserweiterung sowie verschiedene LLM-basierte und werkzeuggestützte Überprüfungsmethoden. Darüber hinaus beleuchten wir domänenspezifische Herausforderungen in Bereichen wie Softwareentwicklung, mathematischem Denken und Beweisen, Datenanalyse und Modellierung sowie wissenschaftlicher Forschung. Die Arbeit diskutiert weiterhin die grundlegenden Grenzen der aktuellen LLM-Lösungen und zukünftige Richtungen der LLM-basierten Lösung komplexer Probleme aus der Perspektive von mehrstufigem Denken, Domänenwissenintegration und Ergebnisüberprüfung.
In diesem Artikel stellen wir OSUniverse vor: einen Benchmark für komplexe, multimodale, desktoporientierte Aufgaben für fortgeschrittene KI-Agenten zur GUI-Navigation, der sich auf Benutzerfreundlichkeit, Erweiterbarkeit, umfassende Abdeckung von Testfällen und automatisierte Validierung konzentriert. Wir unterteilen die Aufgaben in zunehmende Schwierigkeitsgrade, von einfachen Präzisionsklicks bis hin zu mehrstufigen, anwendungsübergreifenden Tests, die Geschicklichkeit, Präzision und klares Denken des Agenten erfordern. In der hier vorgestellten ersten Version des Benchmarks haben wir die Komplexität der Testfälle so kalibriert, dass die State-of-the-Art (SOTA) Agenten (zum Zeitpunkt der Veröffentlichung) keine Ergebnisse über 50 % erzielen, während der durchschnittliche Büroangestellte alle diese Aufgaben mit perfekter Genauigkeit ausführen kann. Der Benchmark kann manuell bewertet werden, wir führen jedoch auch einen automatisierten Validierungsmechanismus ein, der eine durchschnittliche Fehlerrate von weniger als 2 % aufweist. Daher bietet dieser Benchmark eine solide Grundlage für die vollständig automatisierte Messung von Fortschritt, Fähigkeiten und der Effektivität von KI-Agenten zur GUI-Navigation im kurz- und mittelfristigen Horizont. Der Quellcode des Benchmarks ist unter https://github.com/agentsea/osuniverse verfügbar.
Agenten werden hauptsächlich über Aufgaben-Erfolgsmetriken bewertet und optimiert, die grob sind, auf manuellen Entwürfen von Experten basieren und es versäumen, intermediäre emergente Verhaltensweisen zu belohnen. Wir schlagen AutoLibra vor, ein Framework zur Bewertung von Agenten, das offenes menschliches Feedback, wie z.B. „Wenn du feststellst, dass der Button deaktiviert ist, klicke ihn nicht erneut“ oder „Dieser Agent hat zu viel Autonomie, um selbstständig zu entscheiden, was zu tun ist“, in Metriken zur Bewertung feingranularer Verhaltensweisen in Agenten-Trajektorien umwandelt. AutoLibra erreicht dies, indem es Feedback auf das Verhalten eines Agenten abstützt, ähnliche positive und negative Verhaltensweisen clustert und konkrete Metriken mit klaren Definitionen und konkreten Beispielen erstellt, die zur Prompting von LLM-as-a-Judge als Bewerter verwendet werden können. Wir schlagen weiterhin zwei Meta-Metriken vor, um die Ausrichtung einer Menge von (induzierten) Metriken auf offenes Feedback zu bewerten: „Abdeckung“ und „Redundanz“. Durch die Optimierung dieser Meta-Metriken demonstrieren wir experimentell die Fähigkeit von AutoLibra, konkretere Bewertungsmetriken für Agenten zu induzieren als die in früheren Agenten-Bewertungsbenchmarks vorgeschlagenen, und neue Metriken zur Analyse von Agenten zu entdecken. Wir präsentieren auch zwei Anwendungen von AutoLibra zur Verbesserung von Agenten: Erstens zeigen wir, dass durch AutoLibra induzierte Metriken bessere Ziele für das Prompt-Engineering darstellen als die Aufgaben-Erfolgsrate bei einer Vielzahl von Textspiel-Aufgaben, wodurch die Agentenleistung im Vergleich zur Baseline im Durchschnitt um 20 % verbessert wird. Zweitens zeigen wir, dass AutoLibra iterativ hochwertige Feinabstimmungsdaten für Web-Navigationsagenten auswählen kann. Unsere Ergebnisse deuten darauf hin, dass AutoLibra ein leistungsstarkes, aufgabenunabhängiges Werkzeug zur Bewertung und Verbesserung von Sprachagenten ist.
Die meisten bestehenden Video-Anomalie-Detektoren verlassen sich ausschließlich auf RGB-Bilder, denen die zeitliche Auflösung fehlt, um abrupte oder vorübergehende Bewegungsmerkmale zu erfassen, die als Schlüsselindikatoren für anomale Ereignisse gelten. Um diese Einschränkung zu überwinden, schlagen wir Image-Event Fusion for Video Anomaly Detection (IEF-VAD) vor, ein Framework, das Ereignisdarstellungen direkt aus RGB-Videos synthetisiert und sie über einen prinzipiellen, unsicherheitsbewussten Prozess mit Bildmerkmalen fusioniert. Das System (i) modelliert stark verteilte Sensorenrauschen mit einer Student-t-Wahrscheinlichkeit und leitet wertbasierte inverse Varianzgewichte über eine Laplace-Approximation ab; (ii) wendet Kalman-artige, bildweise Aktualisierungen an, um die Modalitäten über die Zeit auszugleichen; und (iii) verfeinert iterativ den fusionierten latenten Zustand, um verbleibendes modulübergreifendes Rauschen zu entfernen. Ohne spezielle Ereignissensoren oder bildweise Annotationen setzt IEF-VAD neue Maßstäbe in mehreren realen Anomalie-Detektions-Benchmarks. Diese Ergebnisse unterstreichen den Nutzen synthetischer Ereignisdarstellungen, um Bewegungsmerkmale hervorzuheben, die in RGB-Bildern oft unterrepräsentiert sind, und ermöglichen so eine präzise und robuste Videoanalyse in diversen Anwendungen, ohne spezielle Ereignissensoren zu benötigen. Code und Modelle sind verfügbar unter https://github.com/EavnJeong/IEF-VAD.
Große Sprachmodelle (LLMs) erzielen bemerkenswerte Leistungen in zahlreichen Aufgaben durch den Einsatz einer Vielzahl von Adaptionsstrategien. Die optimale Auswahl eines Modells und einer Adaptionsstrategie unter Ressourcenbeschränkungen ist jedoch herausfordernd und erfordert oft umfangreiche Experimente. Wir untersuchen, ob es möglich ist, sowohl die Leistung als auch die Kosten genau vorherzusagen, ohne kostspielige Versuche durchzuführen. Wir formalisieren das Problem der Strategieauswahl für LLMs und führen COSMOS ein, ein einheitliches Vorhersageframework, das die Ergebnisse von Adaptionen effizient und mit minimalem Aufwand schätzt. Wir instanziieren und untersuchen die Fähigkeiten unseres Frameworks anhand zweier leistungsstarker Vorhersagemodelle: embedding-augmentierte, leichtgewichtige Proxy-Modelle zur Vorhersage der Feinabstimmungsleistung und Skalierungsgesetze mit geringer Stichprobenanzahl zur Prognose des retrieval-augmentierten In-Context-Lernens. Eine umfassende Bewertung über acht repräsentative Benchmarks zeigt, dass COSMOS eine hohe Vorhersagegenauigkeit erreicht und dabei die Rechenkosten im Durchschnitt um 92,72 % und in ressourcenintensiven Szenarien sogar um bis zu 98,71 % reduziert. Unsere Ergebnisse zeigen, dass eine effiziente Vorhersage von Adaptionsergebnissen nicht nur machbar ist, sondern den Rechenaufwand für den Einsatz von LLMs erheblich verringern kann, während die Leistungsstandards erhalten bleiben.
Semi-supervisedes Lernen hat sich zu einem überzeugenden Ansatz für die 3D-Zahnsegmentierung aus CBCT-Scans entwickelt, bei denen annotierte Daten nur begrenzt verfügbar sind. Bestehende Methoden stehen jedoch weiterhin vor zwei anhaltenden Herausforderungen: begrenzte korrigierende Überwachung in strukturell mehrdeutigen oder falsch annotierten Regionen während des überwachten Trainings sowie Leistungseinbußen durch unzuverlässige Pseudolabels auf nicht annotierten Daten. Um diese Probleme zu lösen, schlagen wir Region-Aware Instructive Learning (RAIL) vor, ein semi-supervidiertes Framework mit einer Dual-Group-Dual-Student-Architektur. Jede Gruppe besteht aus zwei Schülermodellen, die von einem gemeinsamen Lehrernetzwerk geleitet werden. Durch abwechselndes Training zwischen den beiden Gruppen fördert RAIL den Wissenstransfer zwischen den Gruppen und eine kollaborative, regionsbewusste Anleitung, während gleichzeitig eine Überanpassung an die Eigenschaften eines einzelnen Modells reduziert wird. Konkret führt RAIL zwei instruktive Mechanismen ein. Der Disagreement-Focused Supervision (DFS) Controller verbessert das überwachte Lernen, indem er Vorhersagen nur in Bereichen anleitet, in denen die Ausgaben der Schüler sowohl von der Ground Truth als auch vom besten Schüler abweichen, wodurch die Überwachung auf strukturell mehrdeutige oder falsch annotierte Bereiche konzentriert wird. In der unüberwachten Phase verstärkt der Confidence-Aware Learning (CAL) Modulator die Übereinstimmung in Regionen mit hoher Modellsicherheit, während der Einfluss von Vorhersagen mit geringer Konfidenz während des Trainings reduziert wird. Dies verhindert, dass unser Modell instabile Muster lernt, und verbessert die Gesamtzuverlässigkeit der Pseudolabels. Umfangreiche Experimente auf vier CBCT-Zahnsegmentierungsdatensätzen zeigen, dass RAIL unter begrenzter Annotation state-of-the-art Methoden übertrifft. Unser Code wird unter https://github.com/Tournesol-Saturday/RAIL verfügbar sein.
Die Schaffung wissenschaftlichen Wissens unterliegt einer grundlegenden Transformation, da sich Menschen und KI-Systeme über reine Werkzeug-Nutzer-Beziehungen hinaus zu ko-evolutionären epistemischen Partnerschaften entwickeln. Als AlphaFold die Vorhersage von Proteinstrukturen revolutionierte, beschrieben Forscher die Zusammenarbeit mit einem epistemischen Partner, der ihre Konzeption grundlegender Zusammenhänge neu prägte. Dieser Artikel stellt Cognitio Emergens (CE) vor, ein Rahmenwerk, das kritische Grenzen bestehender Modelle adressiert, die sich auf statische Rollen oder enge Metriken konzentrieren, ohne zu erfassen, wie wissenschaftliches Verständnis durch rekursive Mensch-KI-Interaktion über die Zeit entsteht. CE integriert drei Komponenten, die diese Grenzen überwinden: Agency Configurations, die beschreiben, wie Autorität zwischen Menschen und KI verteilt wird (Direktiert, Beitragend, Partnerschaftlich), wobei Partnerschaften dynamisch zwischen Konfigurationen oszillieren, anstatt einem linearen Fortschritt zu folgen; Epistemic Dimensions, die sechs spezifische Fähigkeiten erfassen, die durch Zusammenarbeit über die Achsen Entdeckung, Integration und Projektion entstehen und charakteristische „Fähigkeitssignaturen“ bilden, die die Entwicklung leiten; und Partnership Dynamics, die Kräfte identifizieren, die die Entwicklung dieser Beziehungen prägen, insbesondere das Risiko der epistemischen Entfremdung, bei der Forscher die interpretative Kontrolle über Wissen verlieren, das sie formal unterstützen. Basierend auf der Autopoiesis-Theorie, der sozialen Systemtheorie und der organisatorischen Modularität zeigt CE, wie Wissensko-Kreation durch kontinuierliche Verhandlung von Rollen, Werten und Organisationsstrukturen entsteht. Indem CE die wissenschaftliche Zusammenarbeit zwischen Mensch und KI als grundsätzlich ko-evolutionär neu konzipiert, bietet es eine ausgewogene Perspektive, die weder unkritisch die Rolle der KI feiert noch unnötig davor fürchtet, sondern konzeptionelle Werkzeuge zur Kultivierung von Partnerschaften bereitstellt, die eine sinnvolle menschliche Beteiligung bewahren und gleichzeitig transformative wissenschaftliche Durchbrüche ermöglichen.