papers.description
Große Sprachmodelle zeichnen sich durch die Generierung von Code auf Funktions- und Dateiebene aus, doch die Erstellung kompletter Repositories von Grund auf bleibt eine grundlegende Herausforderung. Dieser Prozess erfordert kohärente und zuverlässige Planung über Vorschlags- und Implementierungsebenen hinweg, während natürliche Sprache aufgrund ihrer Mehrdeutigkeit und Weitschweifigkeit ungeeignet ist, um komplexe Softwarestrukturen treu darzustellen. Um dies zu adressieren, führen wir den Repository Planning Graph (RPG) ein, eine persistente Repräsentation, die Planungen auf Vorschlags- und Implementierungsebenen vereint, indem Fähigkeiten, Dateistrukturen, Datenflüsse und Funktionen in einem Graphen kodiert werden. RPG ersetzt mehrdeutige natürliche Sprache durch einen expliziten Bauplan, der langfristige Planung und skalierbare Repository-Generierung ermöglicht. Aufbauend auf RPG entwickeln wir ZeroRepo, ein graphengetriebenes Framework zur Repository-Generierung von Grund auf. Es arbeitet in drei Phasen: Planung auf Vorschlagsebene und Verfeinerung auf Implementierungsebene zur Konstruktion des Graphen, gefolgt von graphengeleiteter Code-Generierung mit Testvalidierung. Um dieses Setting zu evaluieren, erstellen wir RepoCraft, einen Benchmark mit sechs realen Projekten und 1.052 Aufgaben. Auf RepoCraft produziert ZeroRepo Repositories mit durchschnittlich fast 36.000 LOC, etwa das 3,9-fache des stärksten Baselines (Claude Code) und etwa das 64-fache anderer Baselines. Es erreicht eine funktionale Abdeckung von 81,5 % und eine Erfolgsquote von 69,7 %, was Claude Code um 27,3 bzw. 35,8 Prozentpunkte übertrifft. Weitere Analysen zeigen, dass RPG komplexe Abhängigkeiten modelliert, durch nahezu lineare Skalierung zunehmend anspruchsvollere Planung ermöglicht und das Verständnis von Repositories durch LLMs verbessert, wodurch die Lokalisierung von Agenten beschleunigt wird.
Einheitliche multimodale Large Language Models (LLMs), die sowohl visuelle Inhalte verstehen als auch generieren können, bergen ein immenses Potenzial. Allerdings leiden bestehende Open-Source-Modelle oft unter einem Leistungskompromiss zwischen diesen Fähigkeiten. Wir präsentieren Manzano, ein einfaches und skalierbares einheitliches Framework, das diese Spannung erheblich reduziert, indem es einen hybriden Bild-Tokenizer mit einem gut durchdachten Trainingsrezept kombiniert. Ein einziger gemeinsamer Vision-Encoder versorgt zwei leichte Adapter, die kontinuierliche Einbettungen für das Verständnis von Bild-zu-Text und diskrete Tokens für die Generierung von Text-zu-Bild in einem gemeinsamen semantischen Raum erzeugen. Ein einheitlicher autoregressiver LLM sagt hochrangige Semantik in Form von Text- und Bild-Tokens voraus, wobei ein zusätzlicher Diffusions-Decoder anschließend die Bild-Tokens in Pixel übersetzt. Die Architektur, zusammen mit einem einheitlichen Trainingsrezept für Verständnis- und Generierungsdaten, ermöglicht skalierbares gemeinsames Lernen beider Fähigkeiten. Manzano erzielt state-of-the-art Ergebnisse unter einheitlichen Modellen und ist wettbewerbsfähig mit spezialisierten Modellen, insbesondere bei textlastigen Bewertungen. Unsere Studien zeigen minimale Aufgabenkonflikte und konsistente Gewinne durch die Skalierung der Modellgröße, was unsere Designentscheidung für einen hybriden Tokenizer bestätigt.
Generatives Modellieren, Repräsentationslernen und Klassifikation sind drei Kernprobleme im Bereich des maschinellen Lernens (ML), doch ihre State-of-the-Art (SoTA)-Lösungen bleiben weitgehend getrennt. In diesem Artikel stellen wir die Frage: Kann ein einheitliches Prinzip alle drei adressieren? Eine solche Vereinheitlichung könnte ML-Pipelines vereinfachen und eine größere Synergie zwischen den Aufgaben fördern. Wir stellen das Latent Zoning Network (LZN) als einen Schritt in Richtung dieses Ziels vor. Im Kern schafft LZN einen gemeinsamen Gaußschen latenten Raum, der Informationen über alle Aufgaben hinweg kodiert. Jeder Datentyp (z. B. Bilder, Text, Labels) ist mit einem Encoder ausgestattet, der Proben auf disjunkte latente Zonen abbildet, und einem Decoder, der latente Zustände zurück in Daten umwandelt. ML-Aufgaben werden als Kompositionen dieser Encoder und Decoder ausgedrückt: Zum Beispiel verwendet die label-bedingte Bildgenerierung einen Label-Encoder und einen Bild-Decoder; das Einbetten von Bildern verwendet einen Bild-Encoder; die Klassifikation verwendet einen Bild-Encoder und einen Label-Decoder. Wir demonstrieren das Potenzial von LZN in drei zunehmend komplexen Szenarien: (1) LZN kann bestehende Modelle verbessern (Bildgenerierung): In Kombination mit dem SoTA Rectified Flow-Modell verbessert LZN den FID auf CIFAR10 von 2,76 auf 2,59 – ohne das Trainingsziel zu modifizieren. (2) LZN kann Aufgaben unabhängig lösen (Repräsentationslernen): LZN kann unüberwachtes Repräsentationslernen ohne zusätzliche Verlustfunktionen implementieren und übertrifft die bahnbrechenden MoCo- und SimCLR-Methoden um 9,3 % bzw. 0,2 % bei der nachgelagerten linearen Klassifikation auf ImageNet. (3) LZN kann mehrere Aufgaben gleichzeitig lösen (gemeinsame Generierung und Klassifikation): Mit Bild- und Label-Encodern/Decodern führt LZN beide Aufgaben von Natur aus gemeinsam aus, verbessert den FID und erreicht SoTA-Klassifikationsgenauigkeit auf CIFAR10. Der Code und die trainierten Modelle sind unter https://github.com/microsoft/latent-zoning-networks verfügbar. Die Projektwebsite befindet sich unter https://zinanlin.me/blogs/latent_zoning_networks.html.
Die Erstellung hochwertiger 3D-Modelle von Innenräumen ist entscheidend für Anwendungen in den Bereichen Design, Virtual Reality und Robotik. Allerdings bleibt die manuelle 3D-Modellierung zeitaufwendig und arbeitsintensiv. Obwohl jüngste Fortschritte in der generativen KI die automatisierte Szeneriesynthese ermöglicht haben, stehen bestehende Methoden oft vor Herausforderungen bei der Balance zwischen visueller Qualität, Vielfalt, semantischer Konsistenz und Benutzerkontrolle. Ein wesentlicher Engpass ist das Fehlen eines groß angelegten, hochwertigen Datensatzes, der speziell für diese Aufgabe entwickelt wurde. Um diese Lücke zu schließen, stellen wir einen umfassenden synthetischen Datensatz vor, der 12.328 strukturierte annotierte Szenen mit 57.440 Räumen und 4,7 Millionen fotorealistischen 2D-Renderings umfasst. Basierend auf diesem Datensatz präsentieren wir SpatialGen, ein neuartiges Multi-View-Multi-Modal-Diffusionsmodell, das realistische und semantisch konsistente 3D-Innenraumszenen generiert. Ausgehend von einem 3D-Layout und einem Referenzbild (abgeleitet aus einer Textaufforderung) synthetisiert unser Modell das Erscheinungsbild (Farbbild), die Geometrie (Szenenkoordinatenkarte) und die Semantik (semantische Segmentierungskarte) aus beliebigen Blickwinkeln, wobei die räumliche Konsistenz über die Modalitäten hinweg erhalten bleibt. In unseren Experimenten erzielt SpatialGen durchweg überlegene Ergebnisse im Vergleich zu früheren Methoden. Wir stellen unsere Daten und Modelle als Open Source zur Verfügung, um die Gemeinschaft zu stärken und das Feld der Innenraumerkennung und -generierung voranzutreiben.
Die rasante Weiterentwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Ausrichtung an menschlichen Präferenzen zu einer zentralen Herausforderung gemacht. Belohnungsmodelle (RMs) sind eine Schlüsseltechnologie, um dieses Ziel zu erreichen, doch sowohl in der Wissenschaft als auch in der Industrie fehlt derzeit ein systematischer Leitfaden für die Entwicklung modernster Multimodaler Belohnungsmodelle (MRMs). Durch umfassende experimentelle Analysen zielt diese Arbeit darauf ab, eine klare „Anleitung“ für die Konstruktion hochleistungsfähiger MRMs zu liefern. Wir untersuchen systematisch jede entscheidende Komponente in der MRM-Entwicklungspipeline, darunter Belohnungsmodellierungs-Paradigmen (z. B. Naive-RM, Kritikbasierte RM und Generative RM), die Architektur des Belohnungskopfs, Trainingsstrategien, Datenaufbereitung (unter Einbeziehung von über zehn multimodalen und textbasierten Präferenzdatensätzen), Backbone-Modell und Modellgröße sowie Ensemble-Methoden. Auf Basis dieser experimentellen Erkenntnisse stellen wir BaseReward vor, eine leistungsstarke und effiziente Baseline für die multimodale Belohnungsmodellierung. BaseReward verwendet eine einfache, aber effektive Architektur, die auf einem {Qwen2.5-VL}-Backbone basiert, einen optimierten zweischichtigen Belohnungskopf aufweist und mit einer sorgfältig zusammengestellten Mischung aus hochwertigen multimodalen und textbasierten Präferenzdaten trainiert wird. Unsere Ergebnisse zeigen, dass BaseReward auf wichtigen Benchmarks wie MM-RLHF-Reward Bench, VL-Reward Bench und Multimodal Reward Bench einen neuen State-of-the-Art (SOTA) etabliert und bisherige Modelle übertrifft. Darüber hinaus validieren wir den praktischen Nutzen von BaseReward über statische Benchmarks hinaus, indem wir es in eine reale Reinforcement-Learning-Pipeline integrieren und damit die Leistung eines MLLMs in verschiedenen Wahrnehmungs-, Denk- und Konversationsaufgaben erfolgreich verbessern. Diese Arbeit liefert nicht nur ein erstklassiges MRM, sondern bietet der Gemeinschaft vor allem einen klaren, empirisch fundierten Leitfaden für die Entwicklung robuster Belohnungsmodelle für die nächste Generation von MLLMs.
Robustes Reinforcement Learning (RL) in der realen Welt mit Vision-Sprache-Aktion (VLA)-Modellen wird durch spärliche, handgefertigte Belohnungen und ineffiziente Exploration eingeschränkt. Wir stellen VLAC vor, ein allgemeines Prozess-Belohnungsmodell, das auf InternVL aufbaut und auf groß angelegten heterogenen Datensätzen trainiert wurde. Bei gegebenen paarweisen Beobachtungen und einem Sprachziel gibt es dichte Fortschrittsdeltas und ein Done-Signal aus, wodurch die Notwendigkeit von aufgabenspezifischer Belohnungsentwicklung entfällt, und es unterstützt den One-Shot-In-Context-Transfer auf unbekannte Aufgaben und Umgebungen. VLAC wird auf Vision-Sprache-Datensätzen trainiert, um Wahrnehmungs-, Dialog- und Denkfähigkeiten zu stärken, zusammen mit Roboter- und menschlichen Trajektorien-Daten, die die Aktionsgenerierung und Fortschrittsabschätzung verankern, und zusätzlich gestärkt, um irrelevante Eingaben abzulehnen sowie Regression oder Stagnation durch die Konstruktion einer großen Anzahl von negativen und semantisch nicht übereinstimmenden Beispielen zu erkennen. Mit Prompt-Steuerung generiert ein einzelnes VLAC-Modell abwechselnd Belohnungs- und Aktions-Tokens und vereint damit Kritiker und Policy. Innerhalb einer asynchronen RL-Schleife in der realen Welt setzen wir ein gestuftes Human-in-the-Loop-Protokoll ein (Offline-Demonstrationswiedergabe, Rückkehr und Exploration, menschlich geführte Exploration), das die Exploration beschleunigt und das frühe Lernen stabilisiert. In vier verschiedenen realen Manipulationsaufgaben steigert VLAC die Erfolgsraten von etwa 30 % auf etwa 90 % innerhalb von 200 realen Interaktions-Episoden; die Einbindung von Human-in-the-Loop-Interventionen führt zu einer weiteren Verbesserung der Proben-Effizienz um 50 % und erreicht bis zu 100 % endgültigen Erfolg.
Wir präsentieren Lynx, ein hochpräzises Modell für die personalisierte Videosynthese aus einem einzelnen Eingabebild. Basierend auf einem Open-Source-Diffusion-Transformer (DiT)-Grundmodell führt Lynx zwei leichtgewichtige Adapter ein, um die Identitätstreue zu gewährleisten. Der ID-Adapter verwendet einen Perceiver Resampler, um aus ArcFace abgeleitete Gesichts-Einbettungen in kompakte Identitätstoken für die Konditionierung umzuwandeln, während der Ref-Adapter dichte VAE-Features aus einem eingefrorenen Referenzpfad integriert und fein abgestufte Details über alle Transformer-Schichten durch Cross-Attention einfügt. Diese Module ermöglichen gemeinsam eine robuste Identitätsbewahrung bei gleichzeitiger Wahrung der zeitlichen Kohärenz und visuellen Realität. Durch die Evaluierung anhand eines kuratierten Benchmarks mit 40 Probanden und 20 unvoreingenommenen Prompts, die 800 Testfälle ergaben, hat Lynx eine überlegene Gesichtsähnlichkeit, wettbewerbsfähige Prompt-Befolgung und eine starke Videoqualität demonstriert, wodurch der Stand der personalisierten Videogenerierung vorangetrieben wird.
Im Bereich der KI-gestützten Automatisierung der Mensch-GUI-Interaktion haben zwar rasche Fortschritte bei multimodalen großen Sprachmodellen und Reinforcement-Fine-Tuning-Techniken bemerkenswerte Erfolge erzielt, doch bleibt eine grundlegende Herausforderung bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen GUI-Kommunikationsmustern ab. Um diese Lücke zu schließen, schlagen wir "Blink-Think-Link" (BTL) vor, ein hirninspiriertes Framework für die Mensch-GUI-Interaktion, das den menschlichen kognitiven Prozess zwischen Benutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausible Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, analog zu sakkadischen Augenbewegungen; (2) Think – höherwertiges Denken und Entscheidungsfindung, das kognitive Planung widerspiegelt; und (3) Link – Erzeugung ausführbarer Befehle für präzise motorische Steuerung, die menschliche Handlungsauswahlmechanismen nachahmt. Zusätzlich führen wir zwei Schlüsselinnovationen für das BTL-Framework ein: (1) Blink Data Generation – eine automatisierte Annotationspipeline, die speziell für Blink-Daten optimiert ist, und (2) BTL Reward – der erste regelbasierte Belohnungsmechanismus, der Reinforcement Learning sowohl prozess- als auch ergebnisgetrieben ermöglicht. Aufbauend auf diesem Framework entwickeln wir ein GUI-Agentenmodell namens BTL-UI, das durchweg state-of-the-art-Leistungen sowohl bei statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben in umfassenden Benchmarks demonstriert. Diese Ergebnisse liefern eine überzeugende empirische Bestätigung der Wirksamkeit des Frameworks bei der Entwicklung fortschrittlicher GUI-Agenten.
Obwohl COLMAP lange Zeit die vorherrschende Methode für die Optimierung von Kameraparametern in statischen Szenen geblieben ist, wird es durch seine lange Laufzeit und die Abhängigkeit von Ground-Truth (GT)-Bewegungsmasken für die Anwendung auf dynamische Szenen eingeschränkt. Viele Bemühungen haben versucht, es durch die Einbeziehung weiterer Prioritäten als Supervision zu verbessern, wie z. B. GT-Brennweite, Bewegungsmasken, 3D-Punktwolken, Kameraposen und metrische Tiefe, die jedoch in zufällig aufgenommenen RGB-Videos typischerweise nicht verfügbar sind. In diesem Artikel schlagen wir eine neuartige Methode für eine genauere und effizientere Optimierung von Kameraparametern in dynamischen Szenen vor, die ausschließlich durch ein einzelnes RGB-Video supervidiert wird. Unsere Methode besteht aus drei Schlüsselkomponenten: (1) Patchweise Tracking-Filter, um robuste und maximal spärliche Scharnier-ähnliche Beziehungen über das RGB-Video hinweg herzustellen. (2) Outlier-aware Joint Optimization, für eine effiziente Optimierung von Kameraparametern durch adaptive Gewichtung von beweglichen Ausreißern, ohne Abhängigkeit von Bewegungs-Prioritäten. (3) Eine zweistufige Optimierungsstrategie, um die Stabilität und Optimierungsgeschwindigkeit durch einen Kompromiss zwischen den Softplus-Grenzen und konvexen Minima in den Verlusten zu verbessern. Wir bewerten unsere Kameraschätzungen visuell und numerisch. Um die Genauigkeit weiter zu validieren, speisen wir die Kameraschätzungen in eine 4D-Rekonstruktionsmethode ein und bewerten die resultierenden 3D-Szenen sowie die gerenderten 2D-RGB- und Tiefenkarten. Wir führen Experimente auf 4 realen Datensätzen (NeRF-DS, DAVIS, iPhone und TUM-dynamics) und 1 synthetischen Datensatz (MPI-Sintel) durch und zeigen, dass unsere Methode Kameraparameter effizienter und genauer mit einem einzelnen RGB-Video als einziger Supervision schätzt.
Instruktionsgesteuerte Text-zu-Sprache-Systeme (ITTS) ermöglichen es Nutzern, die Sprachgenerierung durch natürliche Sprachbefehle zu steuern, wodurch eine intuitivere Benutzeroberfläche im Vergleich zu traditionellen TTS-Systemen geboten wird. Die Ausrichtung zwischen Nutzerstilanweisungen und der Wahrnehmung durch den Zuhörer ist jedoch weitgehend unerforscht. Diese Arbeit präsentiert zunächst eine perzeptive Analyse der Steuerbarkeit von ITTS über zwei expressive Dimensionen (Adverbien des Grades und abgestufte Emotionsintensität) und sammelt menschliche Bewertungen zu Sprecheralter und wortbezogenen Betonungsattributen. Um die Lücke zwischen Anweisung und Wahrnehmung umfassend aufzuzeigen, stellen wir eine Datensammlung mit groß angelegten menschlichen Bewertungen vor, das sogenannte Expressive VOice Control (E-VOC) Korpus. Darüber hinaus zeigen wir, dass (1) gpt-4o-mini-tts das zuverlässigste ITTS-Modell mit einer guten Übereinstimmung zwischen Anweisung und generierten Äußerungen über akustische Dimensionen hinweg ist. (2) Die fünf analysierten ITTS-Systeme neigen dazu, Erwachsenenstimmen zu erzeugen, selbst wenn die Anweisungen die Verwendung von Kinder- oder Seniorenstimmen vorgeben. (3) Fein abgestufte Kontrolle bleibt eine große Herausforderung, was darauf hindeutet, dass die meisten ITTS-Systeme erheblichen Verbesserungsbedarf bei der Interpretation leicht unterschiedlicher Attributanweisungen haben.
Rollenspiel-Agenten (RPAs) haben aufgrund ihrer Fähigkeit, immersive und interaktive Charaktere zu simulieren, zunehmendes Interesse geweckt. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf statische Rollenprofile und vernachlässigen die dynamischen Wahrnehmungsfähigkeiten, die dem Menschen inhärent sind. Um diese Lücke zu schließen, führen wir das Konzept dynamischer Rollenprofile ein, indem wir die Video-Modalität in RPAs integrieren. Zur Unterstützung dessen erstellen wir Role-playing-Video60k, einen umfangreichen, hochwertigen Datensatz, der 60.000 Videos und 700.000 entsprechende Dialoge umfasst. Basierend auf diesem Datensatz entwickeln wir ein umfassendes RPA-Framework, das adaptives temporales Sampling mit sowohl dynamischen als auch statischen Rollenprofil-Darstellungen kombiniert. Konkret wird das dynamische Profil durch adaptives Sampling von Videobildern erstellt, die in zeitlicher Reihenfolge an das LLM übergeben werden, während das statische Profil aus (1) Charakterdialogen aus Trainingsvideos während des Fine-Tunings und (2) einem Zusammenfassungskontext aus dem Eingabevideo während der Inferenz besteht. Diese gemeinsame Integration ermöglicht es RPAs, bessere Antworten zu generieren. Darüber hinaus schlagen wir eine robuste Evaluationsmethode vor, die acht Metriken abdeckt. Experimentelle Ergebnisse demonstrieren die Effektivität unseres Frameworks und unterstreichen die Bedeutung dynamischer Rollenprofile bei der Entwicklung von RPAs.
Menschliche Konversation umfasst Sprache, Sprechen und visuelle Hinweise, wobei jedes Medium komplementäre Informationen liefert. Beispielsweise vermittelt das Sprechen eine Stimmung oder einen Ton, der durch Text allein nicht vollständig erfasst wird. Während multimodale LLMs darauf abzielen, Textantworten aus verschiedenen Eingaben zu generieren, wurde der Erzeugung natürlicher und ansprechender Sprache weniger Aufmerksamkeit geschenkt. Wir schlagen einen menschenähnlichen Agenten vor, der Sprachantworten basierend auf der Gesprächsstimmung und Informationen zum Reaktionsstil generiert. Um dies zu erreichen, erstellen wir einen neuartigen MultiSensory Conversation-Datensatz, der sich auf Sprache konzentriert, um Agenten zu ermöglichen, natürliche Sprache zu erzeugen. Anschließend schlagen wir ein auf multimodalen LLMs basierendes Modell vor, das Textantworten und Sprachbeschreibungen generiert, die zur Erzeugung von Sprache verwendet werden, die paralinguistische Informationen abdeckt. Experimentelle Ergebnisse zeigen die Effektivität der Nutzung sowohl visueller als auch auditiver Modalitäten in der Konversation, um ansprechende Sprache zu generieren. Der Quellcode ist verfügbar unter https://github.com/kimtaesu24/MSenC.
Vortrainierte automatische Spracherkennungsmodelle (ASR) wie Whisper zeigen gute Leistungen, benötigen jedoch noch eine Domänenanpassung, um unbekanntes Vokabular und Sprachgebrauch zu bewältigen. In vielen realen Anwendungen ist die Erfassung von Sprachdaten unpraktisch, was eine rein textbasierte Anpassung erforderlich macht. Wir stellen WhisTLE vor, eine tief überwachte, rein textbasierte Anpassungsmethode für vortrainierte Encoder-Decoder-ASR-Modelle. WhisTLE trainiert ein variationsautokodierendes Modell (VAE), um Encoder-Ausgaben aus Text zu modellieren, und feintunt den Decoder unter Verwendung des gelernten Text-zu-Latent-Encoders, optional kombiniert mit einer Text-zu-Sprache (TTS)-Anpassung. Bei der Inferenz wird der ursprüngliche Encoder wiederhergestellt, wodurch keine zusätzlichen Laufzeitkosten entstehen. Über vier domänenfremde Datensätze und vier ASR-Modelle hinweg reduziert WhisTLE mit TTS die Wortfehlerrate (WER) um 12,3 % im Vergleich zur reinen TTS-Anpassung und übertrifft alle Nicht-WhisTLE-Baselines in 27 von 32 Szenarien.
Das ultimative Ziel verkörperter Agenten ist es, Kollaborateure zu schaffen, die mit Menschen interagieren können, und nicht bloße Ausführende, die passiv Anweisungen befolgen. Dies erfordert, dass Agenten kommunizieren, koordinieren und ihre Handlungen basierend auf menschlichem Feedback anpassen. In jüngster Zeit haben Fortschritte in VLAs einen Weg zu diesem Ziel aufgezeigt. Die meisten derzeitigen, auf VLA basierenden verkörperten Agenten operieren jedoch in einem Einweg-Modus: Sie erhalten eine Anweisung und führen sie ohne Rückmeldung aus. Dieser Ansatz scheitert in realen Szenarien, in denen Anweisungen oft mehrdeutig sind. In diesem Artikel behandeln wir dieses Problem mit dem Ask-to-Clarify-Framework. Unser Framework klärt zunächst mehrdeutige Anweisungen durch das Stellen von Fragen in einem mehrschrittigen Dialog. Anschließend generiert es Low-Level-Aktionen end-to-end. Konkret besteht das Ask-to-Clarify-Framework aus zwei Komponenten: einem VLM für die Kollaboration und einer Diffusion für die Aktion. Wir führen außerdem ein Verbindungsmodul ein, das Bedingungen für die Diffusion basierend auf der Ausgabe des VLM generiert. Dieses Modul passt die Beobachtung durch Anweisungen an, um zuverlässige Bedingungen zu schaffen. Wir trainieren unser Framework mit einer zweistufigen Wissensisolierungsstrategie. Zuerst feintunen wir die Kollaborationskomponente mithilfe von Dialogdaten zur Mehrdeutigkeitslösung, um Mehrdeutigkeiten zu bewältigen. Dann integrieren wir die Aktionskomponente, während die Kollaborationskomponente eingefroren bleibt. Dies bewahrt die Interaktionsfähigkeiten, während die Diffusion feinjustiert wird, um Aktionen zu generieren. Die Trainingsstrategie gewährleistet, dass unser Framework zuerst Fragen stellen und dann Aktionen generieren kann. Während der Inferenz fungiert ein Signalerkennungsmodul als Router, der unserem Framework hilft, zwischen dem Stellen von Fragen und dem Ausführen von Aktionen zu wechseln. Wir evaluieren das Ask-to-Clarify-Framework in 8 realen Aufgaben, in denen es bestehende state-of-the-art VLAs übertrifft. Die Ergebnisse deuten darauf hin, dass unser vorgeschlagenes Framework zusammen mit der Trainingsstrategie einen Weg zu kollaborativen verkörperten Agenten bietet.