Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle groß angelegte Diffusionsmodelle erzeugen hochwertige Bilder, haben jedoch Schwierigkeiten, neue, personalisierte künstlerische Stile zu erlernen, was die Erstellung einzigartiger Stilvorlagen einschränkt. Feinabstimmung mit Referenzbildern ist der vielversprechendste Ansatz, aber oft werden Ziele und Rauschniveaus, die für das Vortraining verwendet wurden, blind genutzt, was zu suboptimaler Stilausrichtung führt. Wir schlagen den Style-friendly SNR-Sampler vor, der die Signal-Rausch-Verhältnis (SNR)-Verteilung während der Feinabstimmung aggressiv in Richtung höherer Rauschniveaus verschiebt, um sich auf Rauschniveaus zu konzentrieren, in denen stilistische Merkmale auftauchen. Dies ermöglicht es Modellen, einzigartige Stile besser zu erfassen und Bilder mit höherer Stilausrichtung zu erzeugen. Unsere Methode ermöglicht es Diffusionsmodellen, neue "Stilvorlagen" zu erlernen und zu teilen, was die personalisierte Inhaltsentwicklung verbessert. Wir zeigen die Fähigkeit, Stile wie persönliche Aquarellmalereien, minimalistische flache Cartoons, 3D-Renderings, Mehrfachbildansichten und Memes mit Text zu generieren, wodurch der Bereich der stilgetriebenen Generierung erweitert wird.
Die Post-Training von Sprachmodellen wird angewendet, um Verhaltensweisen zu verfeinern und neue Fähigkeiten bei einer Vielzahl von aktuellen Sprachmodellen zu erschließen, jedoch hinken offene Anleitungen zur Anwendung dieser Techniken den proprietären hinterher. Die zugrunde liegenden Trainingsdaten und Anleitungen für das Post-Training sind gleichzeitig die wichtigsten Puzzlestücke und der Bereich mit der geringsten Transparenz. Um diese Lücke zu schließen, stellen wir TÜLU 3 vor, eine Familie von vollständig offenen, hochmodernen post-trainierten Modellen, zusammen mit ihren Daten, dem Code und den Trainingsanleitungen, die als umfassender Leitfaden für moderne Post-Training-Techniken dienen. TÜLU 3, das auf den Basismodellen von Llama 3.1 aufbaut, erzielt Ergebnisse, die die instruktiven Versionen von Llama 3.1, Qwen 2.5, Mistral und sogar geschlossene Modelle wie GPT-4o-mini und Claude 3.5-Haiku übertreffen. Die Trainingsalgorithmen für unsere Modelle umfassen überwachtes Feintuning (SFT), Direkte Präferenzoptimierung (DPO) und eine neuartige Methode, die wir Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) nennen. Mit TÜLU 3 führen wir ein Multi-Task-Bewertungsschema für Post-Training-Anleitungen mit Entwicklungs- und ungesehenen Bewertungen, Standard-Benchmark-Implementierungen und eine umfangreiche Entkontaminierung vorhandener offener Datensätze zu diesen Benchmarks ein. Wir schließen mit einer Analyse und Diskussion von Trainingsmethoden, die die Leistung nicht zuverlässig verbessert haben. Zusätzlich zu den Modellgewichten und der Demo von TÜLU 3 veröffentlichen wir das vollständige Rezept - einschließlich Datensätzen für verschiedene Kernfähigkeiten, einem robusten Toolkit für die Datenkuratierung und -bewertung, dem Trainingscode und der Infrastruktur sowie, am wichtigsten, einem detaillierten Bericht zur Reproduktion und weiteren Anpassung des Ansatzes von TÜLU 3 an weitere Bereiche.
In diesem Paper stellen wir OminiControl vor, ein äußerst vielseitiges und parameter-effizientes Framework, das Bildbedingungen in vortrainierte Diffusion Transformer (DiT) Modelle integriert. Im Kern nutzt OminiControl einen Mechanismus zur Parameterwiederverwendung, der es dem DiT ermöglicht, Bildbedingungen mithilfe seiner selbst als leistungsstarkem Rückgrat zu kodieren und mit seinen flexiblen multimodalen Aufmerksamkeitsverarbeitern zu verarbeiten. Im Gegensatz zu bestehenden Methoden, die stark auf zusätzliche Encoder-Module mit komplexen Architekturen angewiesen sind, integriert OminiControl (1) injizierte Bildbedingungen effektiv und effizient mit nur ~0,1% zusätzlichen Parametern und (2) behandelt eine Vielzahl von Bildkonditionierungsaufgaben auf einheitliche Weise, einschließlich subjektgesteuerter Generierung und räumlich ausgerichteter Bedingungen wie Kanten, Tiefe und mehr. Diese Fähigkeiten werden durch das Training an Bildern, die vom DiT selbst generiert wurden, erreicht, was insbesondere für die subjektgesteuerte Generierung vorteilhaft ist. Umfangreiche Evaluationen zeigen, dass OminiControl bestehende UNet-basierte und DiT-adaptierte Modelle sowohl in der subjektgesteuerten als auch in der räumlich ausgerichteten bedingten Generierung übertrifft. Darüber hinaus veröffentlichen wir unseren Trainingsdatensatz, Subjects200K, eine vielfältige Sammlung von über 200.000 identitätskonsistenten Bildern, zusammen mit einer effizienten Datensynthesepipeline, um die Forschung im Bereich der subjektkonsistenten Generierung voranzutreiben.
Die Gesichtsalterung ist ein komplexer Prozess, der stark von mehreren Faktoren wie Geschlecht, Ethnizität, Lebensstil usw. abhängt, was es äußerst herausfordernd macht, ein globales Alterungsmodell zu erlernen, um das Altern für jede Person genau vorherzusagen. Bestehende Techniken erzeugen oft realistische und plausible Alterungsergebnisse, aber die verjüngten Bilder ähneln oft nicht dem Erscheinungsbild der Person im Zieltalter und erfordern daher eine Personalisierung. In vielen praktischen Anwendungen der virtuellen Alterung, z.B. VFX in Filmen und TV-Serien, ist oft ein Zugriff auf eine persönliche Fotosammlung des Benutzers verfügbar, die eine Alterung in einem kurzen Zeitintervall (20 bis 40 Jahre) zeigt. Naive Versuche, globale Alterungstechniken auf persönliche Fotosammlungen zu personalisieren, scheitern jedoch oft. Daher schlagen wir MyTimeMachine (MyTM) vor, das ein globales Alterungsmodell mit einer persönlichen Fotosammlung (unter Verwendung von nur 50 Bildern) kombiniert, um eine personalisierte Altersumwandlung zu erlernen. Wir stellen ein neuartiges Adapter-Netzwerk vor, das personalisierte Alterungseigenschaften mit globalen Alterungseigenschaften kombiniert und ein verjüngtes Bild mit StyleGAN2 erzeugt. Wir führen auch drei Verlustfunktionen ein, um das Adapter-Netzwerk mit personalisiertem Alterungsverlust, Extrapolationsregularisierung und adaptiver w-Norm-Regularisierung zu personalisieren. Unser Ansatz kann auch auf Videos erweitert werden und erreicht hochwertige, identitätserhaltende und zeitlich konsistente Alterungseffekte, die tatsächlichen Erscheinungsbildern im Zieltalter ähneln und damit seine Überlegenheit gegenüber State-of-the-Art-Ansätzen zeigen.
Große Sprachmodelle sind anfällig für Missbrauch durch Off-Topic-Verwendung, bei der Benutzer diese Modelle dazu veranlassen können, Aufgaben außerhalb ihres beabsichtigten Anwendungsbereichs auszuführen. Aktuelle Sicherheitsvorkehrungen, die oft auf kuratierten Beispielen oder benutzerdefinierten Klassifikatoren beruhen, leiden unter hohen Fehlalarmraten, begrenzter Anpassungsfähigkeit und der Unpraktikabilität, realweltliche Daten zu verlangen, die nicht in der Vorproduktion verfügbar sind. In diesem Papier stellen wir eine flexible, datenfreie Methodik zur Entwicklung von Sicherheitsvorkehrungen vor, die diese Herausforderungen angeht. Indem wir den Problembereich qualitativ gründlich definieren und dies einem LLM übergeben, um vielfältige Anfragen zu generieren, konstruieren wir einen synthetischen Datensatz, um Off-Topic-Sicherheitsvorkehrungen zu benchmarken und zu trainieren, die heuristische Ansätze übertreffen. Darüber hinaus, indem wir die Aufgabe als Klassifizierung einrahmen, ob die Benutzeranfrage in Bezug auf die Systemanfrage relevant ist, generalisieren unsere Sicherheitsvorkehrungen effektiv auf andere Missbrauchskategorien, einschließlich Jailbreak und schädlicher Anfragen. Schließlich tragen wir weiterhin zum Feld bei, indem wir sowohl den synthetischen Datensatz als auch die Off-Topic-Sicherheitsvorrichtungsmodelle als Open Source bereitstellen, wertvolle Ressourcen zur Entwicklung von Sicherheitsvorkehrungen in Vorproduktionsumgebungen und zur Unterstützung zukünftiger Forschung und Entwicklung in der LLM-Sicherheit.
Große Sprachmodelle (LLMs) und Vision-Sprachmodelle (VLMs) verfügen über umfangreiches Wissen und zeigen vielversprechende Fähigkeiten im Bereich des Schlussfolgerns; dennoch haben sie immer noch Schwierigkeiten, in komplexen, dynamischen Umgebungen gut zu performen. Realweltaufgaben erfordern die Bewältigung komplexer Interaktionen, fortgeschrittenes räumliches Denken, langfristige Planung und kontinuierliche Erkundung neuer Strategien - Bereiche, in denen wir effektive Methoden zur umfassenden Bewertung dieser Fähigkeiten vermissen. Um diese Lücke zu schließen, stellen wir BALROG vor, einen neuartigen Benchmark, der entworfen wurde, um die Handlungsfähigkeiten von LLMs und VLMs durch eine vielfältige Auswahl an anspruchsvollen Spielen zu bewerten. Unser Benchmark integriert eine Reihe bestehender Umgebungen für bestärkendes Lernen mit unterschiedlichen Schwierigkeitsgraden, einschließlich Aufgaben, die von Nicht-Experten innerhalb von Sekunden lösbar sind, bis hin zu extrem herausfordernden, die Jahre dauern können, um sie zu meistern (z. B. die NetHack-Lernumgebung). Wir entwickeln fein abgestufte Metriken zur Leistungsmessung und führen eine umfassende Evaluation mehrerer beliebter Open-Source- und Closed-Source-LLMs und VLMs durch. Unsere Ergebnisse zeigen, dass die aktuellen Modelle zwar teilweise erfolgreich in den einfacheren Spielen sind, jedoch erhebliche Schwierigkeiten mit den anspruchsvolleren Aufgaben haben. Insbesondere beobachten wir schwerwiegende Mängel bei entscheidungsbezogenen Visionen, da die Modelle schlechter abschneiden, wenn visuelle Darstellungen der Umgebungen bereitgestellt werden. Wir veröffentlichen BALROG als einen offenen und benutzerfreundlichen Benchmark, um zukünftige Forschung und Entwicklung in der Handlungsgemeinschaft zu erleichtern.
In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) zu bedeutenden Durchbrüchen sowohl in der Akademie als auch in der Industrie geführt. Eine Frage, die sich stellt, ist, wie wir als Menschen ihre internen neuronalen Repräsentationen verstehen können. Dieser Artikel geht einen ersten Schritt zur Beantwortung dieser Frage, indem er einen vielseitigen Rahmen zur Identifizierung und Interpretation der Semantik innerhalb von LMMs vorstellt. Konkret 1) wenden wir zunächst einen Sparse Autoencoder (SAE) an, um die Repräsentationen in für Menschen verständliche Merkmale zu entwirren. 2) Anschließend präsentieren wir einen automatischen Interpretationsrahmen, um die offenen semantischen Merkmale zu interpretieren, die in SAE von den LMMs selbst erlernt wurden. Wir nutzen diesen Rahmen, um das LLaVA-NeXT-8B-Modell mithilfe des LLaVA-OV-72B-Modells zu analysieren und zeigen, dass diese Merkmale das Verhalten des Modells effektiv lenken können. Unsere Ergebnisse tragen zu einem tieferen Verständnis bei, warum LMMs in bestimmten Aufgaben, einschließlich EQ-Tests, hervorragende Leistungen erbringen, und beleuchten die Art ihrer Fehler sowie potenzielle Strategien zu ihrer Korrektur. Diese Erkenntnisse bieten neue Einblicke in die internen Mechanismen von LMMs und legen Parallelen zu den kognitiven Prozessen des menschlichen Gehirns nahe.
Der Fortschritt großer Vision-Sprachmodelle (LVLMs) hat das multimodale Verständnis erheblich verbessert, dennoch bestehen Herausforderungen bei der Videobegründung aufgrund des Mangels an hochwertigen, umfangreichen Datensätzen. Bestehende Datensätze zur Video-Fragenbeantwortung (VideoQA) stützen sich oft auf kostspielige manuelle Annotationen mit unzureichender Granularität oder automatische Konstruktionsmethoden mit redundanten framegenauen Analysen, was ihre Skalierbarkeit und Effektivität für komplexe Begründungen einschränkt. Um diesen Herausforderungen zu begegnen, stellen wir VideoEspresso vor, einen neuartigen Datensatz, der VideoQA-Paare mit wesentlichen räumlichen Details und zeitlicher Kohärenz sowie multimodalen Annotationen von Zwischenschritten der Begründung enthält. Unsere Konstruktionspipeline verwendet eine semantikbewusste Methode zur Reduzierung von Redundanzen, gefolgt von der Generierung von QA-Paaren unter Verwendung von GPT-4o. Wir entwickeln außerdem Video-Chain-of-Thought (CoT)-Annotationen, um Begründungsprozesse zu bereichern, die GPT-4o dabei unterstützen, logische Beziehungen aus QA-Paaren und Videoinhalten zu extrahieren. Um das Potenzial hochwertiger VideoQA-Paare auszuschöpfen, schlagen wir ein Hybrid-LVLMs-Kollaborationsframework vor, das einen Frame-Selektor und ein zweistufiges instruktionsfeinabgestimmtes Begründungs-LVLM umfasst. Dieses Framework wählt adaptiv Kernframes aus und führt CoT-Begründungen unter Verwendung multimodaler Beweise durch. Anhand unseres vorgeschlagenen Benchmarks mit 14 Aufgaben im Vergleich zu 9 beliebten LVLMs übertrifft unsere Methode bestehende Baselines bei den meisten Aufgaben und zeigt überlegene videobegründende Fähigkeiten. Unser Code und Datensatz werden unter folgendem Link veröffentlicht: https://github.com/hshjerry/VideoEspresso
Die effiziente Tokenisierung von Videos bleibt eine Herausforderung beim Training von Bildverarbeitungsmodellen, die lange Videos verarbeiten können. Eine vielversprechende Richtung besteht darin, einen Tokenizer zu entwickeln, der lange Videoclips kodieren kann, da dies dem Tokenizer ermöglichen würde, die zeitliche Kohärenz von Videos besser für die Tokenisierung zu nutzen. Das Training bestehender Tokenizer auf langen Videos verursacht jedoch oft hohe Trainingskosten, da sie darauf trainiert sind, alle Frames auf einmal zu rekonstruieren. In diesem Papier stellen wir CoordTok vor, einen Video-Tokenizer, der eine Zuordnung von koordinatenbasierten Darstellungen zu den entsprechenden Patches von Eingabevideos lernt, inspiriert von den neuesten Fortschritten in 3D-generativen Modellen. Insbesondere kodiert CoordTok ein Video in faktorisierte Dreiebenen-Darstellungen und rekonstruiert Patches, die zufällig ausgewählten (x, y, t)-Koordinaten entsprechen. Dies ermöglicht das Training großer Tokenizer-Modelle direkt auf langen Videos, ohne übermäßige Trainingsressourcen zu benötigen. Unsere Experimente zeigen, dass CoordTok die Anzahl der Tokens zur Kodierung langer Videoclips drastisch reduzieren kann. Zum Beispiel kann CoordTok ein 128-Frames-Video mit einer Auflösung von 128 mal 128 in 1280 Tokens kodieren, während Baselines 6144 oder 8192 Tokens benötigen, um eine ähnliche Rekonstruktionsqualität zu erreichen. Wir zeigen weiterhin, dass diese effiziente Video-Tokenisierung ein speichereffizientes Training eines Diffusions-Transformators ermöglicht, der gleichzeitig 128 Frames generieren kann.
Das Gebiet der neuartigen Ansichtssynthese hat dank der Entwicklung von Strahlungsfeldmethoden erhebliche Fortschritte gemacht. Die meisten Strahlungsfeldtechniken sind jedoch weitaus besser in der neuartigen Ansichtsinterpolation als in der neuartigen Ansichtsextrapolation, bei der die synthetisierten neuen Ansichten weit über die beobachteten Trainingsansichten hinausgehen. Wir haben den ViewExtrapolator entworfen, einen neuartigen Ansatz zur Ansichtssynthese, der die generativen Prioritäten der Stable Video Diffusion (SVD) für realistische neuartige Ansichtsextrapolation nutzt. Durch Neugestaltung des SVD-Denoisierungsprozesses verfeinert der ViewExtrapolator die von Strahlungsfeldern gerenderten, anfälligen Ansichten erheblich und verbessert die Klarheit und Realität der synthetisierten neuen Ansichten. Der ViewExtrapolator ist ein generischer neuartiger Ansichtsextrapolator, der mit verschiedenen Arten von 3D-Rendering arbeiten kann, wie Ansichten, die aus Punktwolken gerendert werden, wenn nur eine einzelne Ansicht oder monokulares Video verfügbar ist. Darüber hinaus erfordert der ViewExtrapolator kein Feintuning von SVD, was ihn sowohl daten- als auch recheneffizient macht. Umfangreiche Experimente zeigen die Überlegenheit des ViewExtrapolators bei der neuartigen Ansichtsextrapolation. Projektseite: https://kunhao-liu.github.io/ViewExtrapolator/.
Aktuelle Text-zu-Video (T2V) Diffusionsmodelle haben beeindruckende Generierungsfähigkeiten in verschiedenen Bereichen gezeigt. Allerdings generieren diese Modelle oft Videos, die nicht mit den Textvorgaben übereinstimmen, insbesondere wenn die Vorgaben komplexe Szenen mit mehreren Objekten und Attributen beschreiben. Um dies zu lösen, stellen wir VideoRepair vor, ein neuartiges, modellagnostisches, trainingsfreies Videoverfeinerungsframework, das automatisch feingranulare Text-Video-Unstimmigkeiten identifiziert und explizites räumliches und textuelles Feedback generiert, um einem T2V-Diffusionsmodell gezielte, lokalisierte Verfeinerungen zu ermöglichen. VideoRepair besteht aus vier Phasen: In (1) der Videoauswertung erkennen wir Unstimmigkeiten, indem wir feingranulare Auswertungsfragen generieren und diese mit MLLM beantworten. In (2) der Verfeinerungsplanung identifizieren wir genau generierte Objekte und erstellen dann lokalisierte Vorgaben, um andere Bereiche im Video zu verfeinern. Anschließend segmentieren wir in (3) der Regionenzerlegung den korrekt generierten Bereich mithilfe eines kombinierten Verankerungsmoduls. Wir regenerieren das Video, indem wir die nicht übereinstimmenden Regionen anpassen und die korrekten Regionen in (4) der lokalen Verfeinerung beibehalten. Auf zwei beliebten Videogenerierungsbewertungen (EvalCrafter und T2V-CompBench) übertrifft VideoRepair deutlich aktuelle Vergleichsmodelle in verschiedenen Text-Video-Abstimmungsmetriken. Wir bieten eine umfassende Analyse der VideoRepair-Komponenten und qualitative Beispiele an.
Die mobile Manipulation "in freier Wildbahn" zielt darauf ab, Roboter in vielfältigen realen Umgebungen einzusetzen, was erfordert, dass der Roboter (1) Fähigkeiten besitzt, die sich auf Objektkonfigurationen verallgemeinern lassen; (2) in der Lage ist, langfristige Aufgaben in verschiedenen Umgebungen auszuführen; und (3) komplexe Manipulationen über das Greifen und Ablegen hinaus durchführen kann. Vierbeinige Roboter mit Manipulatoren versprechen, den Arbeitsbereich zu erweitern und eine robuste Fortbewegung zu ermöglichen, aber bisherige Ergebnisse untersuchen eine solche Fähigkeit nicht. Dieser Artikel schlägt WildLMa mit drei Komponenten vor, um diese Probleme anzugehen: (1) Anpassung eines erlernten Niedrigpegel-Controllers für VR-gestützte Ganzkörper-Fernsteuerung und Tragfähigkeit; (2) WildLMa-Skill - eine Bibliothek von verallgemeinerbaren visuomotorischen Fähigkeiten, die durch Imitationslernen oder Heuristiken erworben wurden; und (3) WildLMa-Planner - eine Schnittstelle erlernter Fähigkeiten, die LLM-Planern ermöglichen, Fähigkeiten für langfristige Aufgaben zu koordinieren. Wir zeigen die Bedeutung hochwertiger Trainingsdaten, indem wir eine höhere Greiferfolgsrate im Vergleich zu bestehenden RL-Baselines erreichen, indem wir nur zehn Demonstrationen verwenden. WildLMa nutzt CLIP für sprachkonditioniertes Imitationslernen, das sich empirisch auf Objekte verallgemeinert, die in den Trainingsdemonstrationen nicht gesehen wurden. Neben umfangreicher quantitativer Bewertung zeigen wir qualitativ praktische Roboteranwendungen, wie das Aufräumen von Müll in Universitätsfluren oder Außengeländen, das Bedienen von Gelenkobjekten und das Umstellen von Gegenständen in einem Bücherregal.
Die Segmentierung von Wolken ist eine entscheidende Herausforderung bei der Interpretation von Fernerkundungsbildern, da ihre Genauigkeit direkt die Effektivität der nachfolgenden Datenverarbeitung und -analyse beeinflusst. In letzter Zeit haben Vision-Grundlagenmodelle (VGM) leistungsstarke Verallgemeinerungsfähigkeiten über verschiedene visuelle Aufgaben hinweg gezeigt. In diesem Artikel stellen wir einen parameter-effizienten adaptiven Ansatz namens Cloud-Adapter vor, der darauf abzielt, die Genauigkeit und Robustheit der Wolkensegmentierung zu verbessern. Unsere Methode nutzt ein VGM, das auf allgemeinen Domänendaten vortrainiert ist und eingefroren bleibt, was zusätzliches Training überflüssig macht. Cloud-Adapter integriert ein leichtgewichtiges räumliches Wahrnehmungsmodul, das zunächst ein Convolutional Neural Network (ConvNet) verwendet, um dichte räumliche Repräsentationen zu extrahieren. Diese mehrskaligen Merkmale werden dann aggregiert und dienen als kontextuelle Eingaben für ein Anpassungsmodul, das die eingefrorenen Transformer-Schichten innerhalb des VGM moduliert. Experimentelle Ergebnisse zeigen, dass der Cloud-Adapter-Ansatz, der nur 0,6% der trainierbaren Parameter des eingefrorenen Backbone verwendet, signifikante Leistungssteigerungen erzielt. Cloud-Adapter erreicht konsistent eine State-of-the-Art (SOTA)-Leistung über eine Vielzahl von Wolkensegmentierungsdatensätzen aus verschiedenen Satellitenquellen, Sensorenserien, Datenverarbeitungsebenen, Landbedeckungsszenarien und Annotierungsgranularitäten. Wir haben den Quellcode und die vortrainierten Modelle unter https://github.com/XavierJiezou/Cloud-Adapter veröffentlicht, um weitere Forschung zu unterstützen.
In den letzten Jahren hat die Forschung im Bereich der Mensch-Roboter-Interaktion den Fokus darauf gelegt, Roboter zu entwickeln, die komplexe menschliche Anweisungen verstehen und Aufgaben in dynamischen und vielfältigen Umgebungen ausführen können. Diese Systeme haben eine breite Palette von Anwendungen, von persönlicher Assistenz bis hin zur industriellen Robotik, wobei die Bedeutung betont wird, dass Roboter flexibel, natürlich und sicher mit Menschen interagieren. Dieser Artikel stellt eine fortschrittliche Architektur für die robotische Aktionsplanung vor, die Kommunikation, Wahrnehmung und Planung mit Large Language Models (LLMs) integriert. Unser System ist darauf ausgelegt, Befehle, die in natürlicher Sprache ausgedrückt sind, in ausführbare Roboteraktionen zu übersetzen, Umgebungsinformationen zu integrieren und Pläne basierend auf Echtzeit-Feedback dynamisch zu aktualisieren. Das Planungsmodul ist der Kern des Systems, in dem LLMs, die in ein modifiziertes ReAct-Framework eingebettet sind, eingesetzt werden, um Benutzerbefehle zu interpretieren und auszuführen. Durch die Nutzung ihres umfangreichen vorab trainierten Wissens können LLMs Benutzeranfragen effektiv verarbeiten, ohne neues Wissen über die sich ändernde Umgebung einführen zu müssen. Das modifizierte ReAct-Framework erweitert den Ausführungsraum weiter, indem es Echtzeit-Umwahrnehmung und die Ergebnisse physischer Handlungen bereitstellt. Durch die Kombination robuster und dynamischer semantischer Kartenrepräsentationen als Graphen mit Steuerungskomponenten und Fehlererklärungen verbessert diese Architektur die Anpassungsfähigkeit des Roboters, die Aufgabenausführung und die nahtlose Zusammenarbeit mit menschlichen Benutzern in gemeinsamen und dynamischen Umgebungen. Durch die Integration von kontinuierlichen Feedback-Schleifen mit der Umgebung kann das System den Plan dynamisch an unerwartete Änderungen anpassen, um die Fähigkeit des Roboters zur Aufgabenausführung zu optimieren. Durch die Verwendung eines Datensatzes früherer Erfahrungen ist es möglich, detailliertes Feedback über das Versagen bereitzustellen und den Kontext der LLMs für die nächste Iteration mit Vorschlägen zur Überwindung des Problems zu aktualisieren.