papers.description
Allgemeine KI-Agenten werden zunehmend als grundlegende Rahmenwerke für die nächste Generation der künstlichen Intelligenz anerkannt, die komplexes Denken, Web-Interaktionen, Programmierung und autonome Forschungsfähigkeiten ermöglichen. Aktuelle Agentensysteme sind jedoch entweder Closed-Source oder stark auf eine Vielzahl kostenpflichtiger APIs und proprietärer Tools angewiesen, was die Zugänglichkeit und Reproduzierbarkeit für die Forschungsgemeinschaft einschränkt. In dieser Arbeit präsentieren wir Cognitive Kernel-Pro, ein vollständig Open-Source und (in größtmöglichem Umfang) kostenloses Multi-Modul-Agenten-Framework, das die Entwicklung und Evaluierung fortschrittlicher KI-Agenten demokratisieren soll. Innerhalb von Cognitive Kernel-Pro untersuchen wir systematisch die Kuratierung hochwertiger Trainingsdaten für Agent Foundation Models, wobei wir uns auf die Konstruktion von Abfragen, Trajektorien und verifizierbaren Antworten in vier Schlüsselbereichen konzentrieren: Web, Dateien, Code und allgemeines Denken. Darüber hinaus erforschen wir neuartige Strategien für die Reflexion und Abstimmung von Agenten zur Laufzeit, um die Robustheit und Leistung der Agenten zu verbessern. Wir evaluieren Cognitive Kernel-Pro auf GAIA und erzielen dabei state-of-the-art Ergebnisse unter Open-Source- und kostenlosen Agenten. Bemerkenswerterweise übertrifft unser Open-Source-Modell mit 8B Parametern bisher führende Systeme wie WebDancer und WebSailor und setzt damit einen neuen Leistungsstandard für zugängliche, hochleistungsfähige KI-Agenten. Der Code ist verfügbar unter https://github.com/Tencent/CognitiveKernel-Pro.
Diffusion Large Language Models (DLLMs) entwickeln sich als leistungsstarke Alternative zu den dominierenden Autoregressiven Large Language Models, die effiziente parallele Generierung und eine effektive Modellierung des globalen Kontexts ermöglichen. Die praktische Anwendung von DLLMs wird jedoch durch eine kritische architektonische Einschränkung behindert: die Notwendigkeit einer statisch vordefinierten Generierungslänge. Diese statische Längenzuweisung führt zu einem problematischen Kompromiss: unzureichende Längen beeinträchtigen die Leistung bei komplexen Aufgaben, während übermäßige Längen erheblichen Rechenaufwand verursachen und manchmal zu Leistungseinbußen führen. Obwohl das Inferenzframework starr ist, beobachten wir, dass das Modell selbst interne Signale besitzt, die mit der optimalen Antwortlänge für eine bestimmte Aufgabe korrelieren. Um diese Lücke zu schließen, nutzen wir diese latenten Signale und führen DAEDAL ein, eine neuartige trainingsfreie Denoising-Strategie, die eine dynamische adaptive Längenerweiterung für Diffusion Large Language Models ermöglicht. DAEDAL arbeitet in zwei Phasen: 1) Vor dem Denoising-Prozess beginnt DAEDAL mit einer kurzen Ausgangslänge und erweitert diese iterativ auf eine grobe, aufgabenangemessene Länge, geleitet durch ein Sequenzabschluss-Metrik. 2) Während des Denoising-Prozesses greift DAEDAL dynamisch ein, indem es unzureichende Generierungsbereiche durch das Einfügen von Mask-Tokens identifiziert und erweitert, um sicherzustellen, dass das endgültige Ergebnis vollständig entwickelt ist. Umfangreiche Experimente mit DLLMs zeigen, dass DAEDAL eine Leistung erzielt, die vergleichbar und in einigen Fällen sogar besser ist als sorgfältig abgestimmte feste Längen-Baselines, während gleichzeitig die Recheneffizienz durch einen höheren effektiven Token-Anteil verbessert wird. Durch die Auflösung der statischen Längenbeschränkung erschließt DAEDAL neues Potenzial für DLLMs, schließt eine kritische Lücke zu ihren autoregessiven Gegenstücken und ebnet den Weg für eine effizientere und leistungsfähigere Generierung.
Der aktuelle Erfolg von Diffusionstransformern hängt stark vom komprimierten latenten Raum ab, der durch den vortrainierten Variations-Autoencoder (VAE) geformt wird. Dieses zweistufige Trainingsparadigma führt jedoch unweigerlich zu akkumulierten Fehlern und Dekodierungsartefakten. Um die genannten Probleme zu lösen, kehren Forscher auf Kosten komplexer Kaskadenpipelines und erhöhter Token-Komplexität in den Pixelraum zurück. Im Gegensatz zu diesen Bemühungen schlagen wir vor, die patchweise Dekodierung mit einem neuronalen Feld zu modellieren und präsentieren eine einstufige, effiziente, end-to-end-Lösung, die wir als Pixel Neural Field Diffusion (PixelNerd) bezeichnen. Dank der effizienten neuronalen Felddarstellung in PixelNerd erreichten wir direkt einen FID-Wert von 2,15 auf ImageNet 256×256 und 2,84 auf ImageNet 512×512, ohne komplexe Kaskadenpipelines oder einen VAE zu verwenden. Wir erweitern unser PixelNerd-Framework auch auf Text-zu-Bild-Anwendungen. Unser PixelNerd-XXL/16 erzielte einen wettbewerbsfähigen Gesamtwert von 0,73 auf dem GenEval-Benchmark und 80,9 auf dem DPG-Benchmark.
Große Vision-Sprach-Modelle (VLMs) haben bedeutende Fortschritte bei 2D-Bildverständnisaufgaben erzielt, was das Interesse geweckt hat, diese Fähigkeiten auf das Verständnis von 3D-Szenen auszuweiten. Allerdings kämpfen aktuelle 3D-VLMs oft mit robustem Schlussfolgern und Generalisierung aufgrund von Einschränkungen bei hochwertigen räumlichen Daten und der statischen Natur von Blickwinkelannahmen. Um diese Herausforderungen zu bewältigen, schlagen wir 3D-R1 vor, ein Grundlagenmodell, das die Schlussfolgerungsfähigkeiten von 3D-VLMs verbessert. Konkret konstruieren wir zunächst einen hochwertigen synthetischen Datensatz mit CoT, genannt Scene-30K, indem wir bestehende 3D-VL-Datensätze und eine auf Gemini 2.5 Pro basierende Datenengine nutzen. Dieser dient als Cold-Start-Initialisierungsdaten für 3D-R1. Darüber hinaus nutzen wir eine RLHF-Politik wie GRPO im Reinforcement-Learning-Trainingsprozess, um die Schlussfolgerungsfähigkeiten zu verbessern, und führen drei Belohnungsfunktionen ein: eine Wahrnehmungsbelohnung, eine semantische Ähnlichkeitsbelohnung und eine Formatbelohnung, um die Erkennungsgenauigkeit und die semantische Präzision der Antworten zu gewährleisten. Des Weiteren führen wir eine dynamische Ansichtsauswahlstrategie ein, die adaptiv die informativsten Perspektiven für das Verständnis von 3D-Szenen auswählt. Umfangreiche Experimente zeigen, dass 3D-R1 eine durchschnittliche Verbesserung von 10 % über verschiedene 3D-Szenen-Benchmarks hinweg erzielt, was seine Wirksamkeit bei der Verbesserung des Schlussfolgerns und der Generalisierung im 3D-Szenenverständnis unterstreicht. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
Jüngste Fortschritte bei Agenten für große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei der Lösung von Softwareproblemen gezeigt, wobei fortschrittliche Techniken wie Multi-Agenten-Kollaboration und Monte-Carlo-Baumsuche (MCTS) genutzt werden. Allerdings agieren aktuelle Agenten als gedächtnislose Entdecker – sie behandeln jedes Problem separat, ohne Wissen aus früheren Reparaturerfahrungen zu behalten oder wiederzuverwenden. Dies führt zu redundanter Erkundung gescheiterter Pfade und verpassten Chancen, erfolgreiche Problemlösungsmethoden auf ähnliche Probleme anzupassen. Um dieses Problem zu lösen, stellen wir SWE-Exp vor, einen erfahrungsgestützten Ansatz, der prägnante und umsetzbare Erfahrungen aus früheren Agentenpfaden destilliert und kontinuierliches Lernen über verschiedene Probleme hinweg ermöglicht. Unsere Methode führt eine vielseitige Erfahrungsbank ein, die sowohl erfolgreiche als auch gescheiterte Reparaturversuche erfasst. Insbesondere extrahiert sie wiederverwendbares Wissen zur Problemlösung auf verschiedenen Ebenen – von der allgemeinen Problemverständnis bis hin zu spezifischen Codeänderungen. Experimente zeigen, dass SWE-Exp eine state-of-the-art Lösungsrate (41,6% Pass@1) auf SWE-bench-Verified unter Open-Source-Agenten-Frameworks erreicht. Unser Ansatz etabliert ein neues Paradigma, in dem automatisierte Softwareentwicklungsagenten systematisch Reparaturkenntnisse sammeln und nutzen, wodurch sich der Fokus grundlegend von einer Versuch-und-Irrtum-Erkundung hin zu einer strategischen, erfahrungsgestützten Problemlösung verschiebt.
Die Problemlösung hat dank der fortgeschrittenen Denkfähigkeiten großer Sprachmodelle (LLMs) bemerkenswerte Fortschritte gemacht. Kürzlich haben agentenbasierte Frameworks wie SWE-agent diesen Fortschritt weiter vorangetrieben, indem sie autonome, werkzeugnutzende Agenten ermöglichten, um komplexe Softwareentwicklungsaufgaben zu bewältigen. Während bestehende agentenbasierte Ansätze zur Problemlösung hauptsächlich auf unabhängigen Erkundungen der Agenten basieren, bleiben sie oft in lokalen Lösungen stecken und scheitern daran, Problemstellungen zu erkennen, die sich über verschiedene Teile der Codebasis erstrecken. Um diese Einschränkung zu überwinden, schlagen wir SWE-Debate vor, ein kompetitives Multi-Agenten-Debatten-Framework, das vielfältige Denkpfade fördert und eine konsolidierte Problemlokalisierung erreicht. SWE-Debate erstellt zunächst mehrere Fehlerausbreitungspfade als Lokalisierungsvorschläge, indem es einen Code-Abhängigkeitsgraphen durchläuft. Anschließend organisiert es eine dreiründige Debatte unter spezialisierten Agenten, die jeweils unterschiedliche Denkperspektiven entlang des Fehlerausbreitungspfades verkörpern. Dieser strukturierte Wettbewerb ermöglicht es den Agenten, gemeinsam auf einen konsolidierten Lösungsplan hinzuarbeiten. Schließlich wird dieser konsolidierte Lösungsplan in einen MCTS-basierten Code-Modifikations-Agenten integriert, um Patches zu generieren. Experimente auf dem SWE-bench-Benchmark zeigen, dass SWE-Debate neue state-of-the-art-Ergebnisse in Open-Source-Agenten-Frameworks erzielt und die Baselines deutlich übertrifft.
Die Bewertung der Konversationsfähigkeiten von großen Sprachmodellen (LLMs) bleibt eine anspruchsvolle Aufgabe. Aktuelle Mainstream-Ansätze stützen sich hauptsächlich auf das „LLM-as-a-judge“-Paradigma, bei dem ein LLM als Bewerter eingesetzt wird, um die Dialogqualität zu beurteilen. Solche Methoden leiden jedoch oft unter verschiedenen Verzerrungen, die die Zuverlässigkeit und Konsistenz der Bewertungsergebnisse beeinträchtigen. Um diese Verzerrungen zu mildern, setzen neuere Methoden mehrere LLMs als Bewerter ein und aggregieren deren Urteile, um die optimale Bewertung auszuwählen. Obwohl effektiv, verursacht dieser Multi-Judge-Ansatz erheblichen Rechenaufwand während der Inferenz. In diesem Artikel schlagen wir einen effizienten Multi-Turn-Dialogbewerter vor, der das kollektive Wissen mehrerer LLM-Bewerter erfasst, indem er deren Präferenzwissen in einem einzigen Modell zusammenführt. Unser Ansatz bewahrt die Vorteile diverser Multi-Judge-Rückmeldungen, während er die Bewertungskosten drastisch reduziert und eine schnelle und flexible Bewertung der Dialogqualität ermöglicht. Umfangreiche Experimente auf sieben Bewertungsbenchmarks für Einzelbewertungen und paarweise Vergleiche von Dialogen zeigen, dass unsere Methode bestehende Baselines in verschiedenen Szenarien übertrifft und ihre Effizienz und Robustheit unter Beweis stellt.
Jüngste Fortschritte bei großen Sprachmodellen haben die Entwicklung multimodaler LLMs (MLLMs) vorangetrieben, die Text, Sprache und Bild in einheitlichen Frameworks integrieren. Während sich MLLMs von eng begrenzten, monolingualen, aufgabenorientierten Systemen zu allgemeinen, befehlsfolgenden Modellen entwickeln, liegt eine zentrale Herausforderung in der Bewertung ihrer mehrsprachigen und multimodalen Fähigkeiten sowohl in langen als auch in kurzen Kontexten. Bisherige Benchmarks sind jedoch unzureichend, um diese Dimensionen gemeinsam zu bewerten: Sie beschränken sich oft auf Englisch, konzentrieren sich meist auf eine einzelne Modalität, basieren auf kurzen Kontexten oder fehlen menschliche Annotationen – was eine umfassende Bewertung der Modellleistung über Sprachen, Modalitäten und Aufgabenkomplexität hinweg behindert. Um diese Lücken zu schließen, stellen wir MCIF (Multimodal Crosslingual Instruction Following) vor, den ersten mehrsprachigen, menschlich annotierten Benchmark, der auf wissenschaftlichen Vorträgen basiert und darauf ausgelegt ist, die Befolgung von Anweisungen in mehrsprachigen, multimodalen Kontexten sowohl für kurze als auch lange Eingaben zu bewerten. MCIF umfasst drei Kernmodalitäten – Sprache, Bild und Text – sowie vier verschiedene Sprachen (Englisch, Deutsch, Italienisch und Chinesisch), was eine umfassende Bewertung der Fähigkeiten von MLLMs ermöglicht, Anweisungen über Sprachen hinweg zu interpretieren und sie mit multimodalen Kontextinformationen zu kombinieren. MCIF wird unter einer CC-BY 4.0-Lizenz veröffentlicht, um offene Forschung und Fortschritte in der Entwicklung von MLLMs zu fördern.
Multimodale Referenzsegmentierung zielt darauf ab, Zielobjekte in visuellen Szenen, wie Bildern, Videos und 3D-Szenen, basierend auf Referenzausdrücken in Text- oder Audioform zu segmentieren. Diese Aufgabe spielt eine entscheidende Rolle in praktischen Anwendungen, die eine präzise Objekterkennung basierend auf Benutzeranweisungen erfordern. Im letzten Jahrzehnt hat sie in der multimodalen Gemeinschaft erhebliche Aufmerksamkeit erlangt, angetrieben durch Fortschritte in konvolutionalen neuronalen Netzen, Transformern und großen Sprachmodellen, die alle die multimodalen Wahrnehmungsfähigkeiten erheblich verbessert haben. Dieser Artikel bietet einen umfassenden Überblick über die multimodale Referenzsegmentierung. Wir beginnen mit der Einführung in den Hintergrund dieses Feldes, einschließlich Problemdefinitionen und häufig verwendeter Datensätze. Anschließend fassen wir eine einheitliche Meta-Architektur für die Referenzsegmentierung zusammen und überprüfen repräsentative Methoden in drei primären visuellen Szenen, darunter Bilder, Videos und 3D-Szenen. Wir diskutieren weiterhin Methoden zur Generalisierten Referenzausdruck (GREx), um die Herausforderungen der realen Komplexität zu bewältigen, sowie verwandte Aufgaben und praktische Anwendungen. Umfangreiche Leistungsvergleiche auf Standard-Benchmarks werden ebenfalls bereitgestellt. Wir verfolgen kontinuierlich verwandte Arbeiten unter https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
Die audio-gesteuerte Videogenerierung zielt darauf ab, realistische Videos zu synthetisieren, die mit den Eingabe-Audioaufnahmen übereinstimmen, ähnlich der menschlichen Fähigkeit, Szenen aus auditiven Eingaben zu visualisieren. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf die Erforschung semantischer Informationen, wie die Klassen der im Audio vorhandenen Klangquellen, was ihre Fähigkeit einschränkt, Videos mit präzisem Inhalt und räumlicher Komposition zu erzeugen. Im Gegensatz dazu können wir Menschen nicht nur natürlich die semantischen Kategorien der Klangquellen identifizieren, sondern auch deren tief verankerte räumliche Attribute, wie Standorte und Bewegungsrichtungen, bestimmen. Diese nützlichen Informationen können durch die Berücksichtigung spezifischer räumlicher Indikatoren, die sich aus den inhärenten physikalischen Eigenschaften des Schalls wie Lautstärke oder Frequenz ableiten, erschlossen werden. Da frühere Methoden diesen Faktor weitgehend ignorieren, präsentieren wir SpA2V, das erste Framework, das explizit diese räumlichen auditiven Hinweise aus Audios nutzt, um Videos mit hoher semantischer und räumlicher Übereinstimmung zu generieren. SpA2V zerlegt den Generierungsprozess in zwei Phasen: 1) Audio-gesteuerte Videoplanung: Wir passen sorgfältig ein modernes MLLM für eine neuartige Aufgabe an, um räumliche und semantische Hinweise aus dem Eingabe-Audio zu nutzen und Video-Szenen-Layouts (VSLs) zu erstellen. Dies dient als Zwischenrepräsentation, um die Lücke zwischen den Audio- und Video-Modalitäten zu überbrücken. 2) Layout-basierte Videogenerierung: Wir entwickeln einen effizienten und effektiven Ansatz, um VSLs nahtlos als bedingte Anleitung in vortrainierte Diffusionsmodelle zu integrieren, was eine VSL-basierte Videogenerierung ohne zusätzliches Training ermöglicht. Umfangreiche Experimente zeigen, dass SpA2V bei der Erzeugung realistischer Videos mit semantischer und räumlicher Ausrichtung zu den Eingabe-Audios hervorragt.
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit bewiesen, Texte zu generieren, die menschlichem Schreiben sehr ähneln. Allerdings erzeugen sie oft faktisch falsche Aussagen, ein Problem, das gemeinhin als „Halluzination“ bezeichnet wird. Die Bewältigung von Halluzinationen ist entscheidend, um die Zuverlässigkeit und Effektivität von LLMs zu verbessern. Während sich viel Forschung auf Halluzinationen im Englischen konzentriert hat, erweitert unsere Studie diese Untersuchung auf Konversationsdaten in drei Sprachen: Hindi, Farsi und Mandarin. Wir bieten eine umfassende Analyse eines Datensatzes, um sowohl faktische als auch linguistische Fehler in diesen Sprachen für GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 und Qwen-3 zu untersuchen. Wir fanden heraus, dass LLMs in Mandarin sehr wenige halluzinierte Antworten produzieren, jedoch in Hindi und Farsi eine signifikant höhere Anzahl von Halluzinationen erzeugen.
Visuelle Navigation mit einem Bild als Ziel ist ein grundlegendes und herausforderndes Problem. Konventionelle Methoden verlassen sich entweder auf end-to-end RL-Lernen oder auf eine modulare Policy mit einem topologischen Graphen oder einer BEV-Karte als Gedächtnis, was die geometrische Beziehung zwischen der erkundeten 3D-Umgebung und dem Zielbild nicht vollständig modellieren kann. Um das Zielbild effizient und präzise im 3D-Raum zu lokalisieren, bauen wir unser Navigationssystem auf der renderbaren 3D-Gauß-Darstellung (3DGS) auf. Aufgrund der rechenintensiven Natur der 3DGS-Optimierung und des großen Suchraums der 6-DoF-Kamerapose ist es jedoch äußerst ineffizient, 3DGS direkt für die Bildlokalisierung während des Erkundungsprozesses des Agenten zu nutzen. Daher schlagen wir IGL-Nav vor, ein inkrementelles 3D-Gauß-Lokalisierungsframework für effiziente und 3D-bewusste Bildzielnavigation. Konkret aktualisieren wir die Szenendarstellung inkrementell, wenn neue Bilder mit einer vorwärtsgerichteten monokularen Vorhersage eintreffen. Dann lokalisieren wir das Ziel grob, indem wir die geometrischen Informationen für die diskrete Raumabgleichung nutzen, was einer effizienten 3D-Faltung entspricht. Wenn sich der Agent dem Ziel nähert, lösen wir schließlich die genaue Zielpose durch Optimierung mittels differenzierbarem Rendering. Das vorgeschlagene IGL-Nav übertrifft die bestehenden State-of-the-Art-Methoden deutlich in verschiedenen experimentellen Konfigurationen. Es kann auch die anspruchsvollere freie Sicht-Bildziel-Einstellung bewältigen und auf einer realen Roboterplattform eingesetzt werden, wobei ein Handy verwendet wird, um das Zielbild in einer beliebigen Pose aufzunehmen. Projektseite: https://gwxuan.github.io/IGL-Nav/.
Während KI hervorragend darin ist, Text, Audio, Bilder und Videos zu generieren, bleibt die Erstellung interaktiver audiovisueller Inhalte wie Videospiele eine Herausforderung. Aktuelle LLMs können JavaScript-Spiele und Animationen erzeugen, aber es fehlen automatisierte Bewertungsmetriken, und sie haben Schwierigkeiten mit komplexen Inhalten, die normalerweise Teams von Menschen über viele Monate hinweg (Multi-Shot, Multi-Agenten) unter Verwendung von Assets, die von Künstlern erstellt wurden, erfordern. Um diese Probleme zu lösen, haben wir eine neue Metrik und ein Multi-Agenten-System entwickelt. Wir schlagen AVR-Eval vor, eine relative Metrik für die Qualität von Multimedia-Inhalten unter Verwendung von Audio-Visual Recordings (AVRs). Ein omni-modales Modell (verarbeitet Text, Video und Audio) vergleicht die AVRs zweier Inhalte, wobei ein Textmodell die Bewertungen überprüft, um die Überlegenheit zu bestimmen. Wir zeigen, dass AVR-Eval korrekt zwischen gutem und fehlerhaftem oder nicht übereinstimmendem Inhalt unterscheidet. Wir haben AVR-Agent entwickelt, ein Multi-Agenten-System, das JavaScript-Code aus einer Sammlung von Multimedia-Assets (Audio, Bilder, 3D-Modelle) generiert. Der Codierungs-Agent wählt relevante Assets aus, erzeugt mehrere initiale Codes, verwendet AVR-Eval, um die beste Version zu identifizieren, und verbessert sie iterativ durch omni-modales Agenten-Feedback aus den AVRs. Wir führen Experimente mit Spielen und Animationen durch, bei denen AVR-Eval (Gewinnrate von Inhalt A gegen B) eingesetzt wird. Wir stellen fest, dass Inhalte, die von AVR-Agent generiert wurden, eine signifikant höhere Gewinnrate gegenüber Inhalten haben, die durch One-Shot-Generierung erstellt wurden. Allerdings haben Modelle Schwierigkeiten, benutzerdefinierte Assets und AVR-Feedback effektiv zu nutzen, was sich in keiner höheren Gewinnrate zeigt. Dies offenbart eine kritische Lücke: Während Menschen von hochwertigen Assets und audiovisuellem Feedback profitieren, scheinen aktuelle Codierungsmodelle diese Ressourcen nicht so effektiv zu nutzen, was grundlegende Unterschiede zwischen menschlichen und maschinellen Ansätzen zur Inhaltserstellung aufzeigt.