papers.description
Große Sprachmodelle (LLMs) werden zunehmend dazu erwartet, über einfache Faktenabfragen hinauszugehen und sich komplexen Deep Research-Aufgaben zu widmen, die das Zerlegen von Fragen in Teilprobleme, die Koordination von mehrstufigem Denken und die Synthese von Beweisen aus verschiedenen Quellen erfordern. Wir formalisieren Deep Research-Aufgaben mit überprüfbaren Antworten als Hierarchische Constraint Satisfaction Problems (HCSPs), die sich grundlegend von Einzel-Constraint-, Multi-Hop- oder flachen CSP-Formulierungen unterscheiden. Bestehende Benchmarks (z. B. Natural Questions, HotpotQA) erfassen diese Komplexität jedoch nicht, während neuere synthetische Datensätze oft Abkürzungen im Denken, Wissenslecks oder unzureichende strukturelle Tiefe einführen. Um diese Lücke zu schließen, stellen wir InfoSeek vor, ein skalierbares Framework zur Synthese komplexer Deep Research-Aufgaben. InfoSeek verwendet ein Dual-Agenten-System, um rekursiv einen Forschungsbaum aus großflächigen Webseiten zu erstellen, Zwischenknoten in gültige Teilprobleme zu verwischen und diese Bäume in natürliche Sprachfragen umzuwandeln, die das Durchlaufen der gesamten Hierarchie erfordern. Es ermöglicht auch eine schnelle Skalierung, wodurch über 50.000 Trainingsbeispiele, ein kuratiertes Testset und Denkpfade, die durch Reject Sampling generiert werden, entstehen. Experimente zeigen, dass Modelle, die mit InfoSeek trainiert wurden, durchweg starke Baselines übertreffen. Auf einem anspruchsvollen Benchmark, BrowseComp-Plus, übertreffen mit InfoSeek optimierte 3B-LLMs deutlich größere 32B-Modelle und leichte kommerzielle APIs (z. B. Gemini2.5-Flash), während sie eine Leistung erzielen, die mit stärkeren APIs (z. B. Gemini2.5-Pro) vergleichbar ist. Durch die Bewahrung von Meta-Informationen wie Zwischenschritten und Retrieval-Labels unterstützt InfoSeek weiterhin fortgeschrittene Optimierungsstrategien, einschließlich der Gestaltung von zusammengesetzten Belohnungen und der Exploration auf Trajektorienebene. Wir stellen unsere Codes und Datensätze unter https://github.com/VectorSpaceLab/InfoSeek{this repository} zur Verfügung.
Wir stellen Robix vor, ein einheitliches Modell, das Robotik-Argumentation, Aufgabenplanung und natürliche Sprachinteraktion in einer einzigen Vision-Sprache-Architektur integriert. Als kognitive Ebene auf hoher Ebene in einem hierarchischen Robotersystem generiert Robix dynamisch atomare Befehle für den Low-Level-Controller und verbale Antworten für die menschliche Interaktion, wodurch Roboter in der Lage sind, komplexe Anweisungen zu befolgen, langfristige Aufgaben zu planen und natürlich mit Menschen innerhalb eines End-to-End-Frameworks zu interagieren. Robix führt zudem neuartige Fähigkeiten ein, wie proaktive Dialoge, Echtzeit-Unterbrechungsbehandlung und kontextbewusstes Alltagsverständnis während der Aufgabenausführung. Im Kern nutzt Robix Chain-of-Thought-Argumentation und verfolgt eine dreistufige Trainingsstrategie: (1) fortgesetztes Vortraining zur Verbesserung grundlegender verkörperter Argumentationsfähigkeiten, einschließlich 3D-räumlichem Verständnis, visueller Verankerung und aufgabenbezogener Argumentation; (2) überwachtes Feinabstimmen, um Mensch-Roboter-Interaktion und Aufgabenplanung als eine einheitliche Argumentations-Aktionssequenz zu modellieren; und (3) Verstärkungslernen, um die Konsistenz zwischen Argumentation und Aktion sowie die Kohärenz langfristiger Aufgaben zu verbessern. Umfangreiche Experimente zeigen, dass Robix sowohl Open-Source- als auch kommerzielle Baselines (z. B. GPT-4o und Gemini 2.5 Pro) in der interaktiven Aufgabenausführung übertrifft und eine starke Generalisierung über verschiedene Anweisungstypen (z. B. offene, mehrstufige, eingeschränkte, ungültige und unterbrochene) sowie verschiedene benutzerbezogene Aufgaben wie Tischabräumen, Einkaufen und Ernährungsfilterung demonstriert.
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat sich als vorherrschendes Paradigma für mathematische Denkaufgaben etabliert und bietet stabile Verbesserungen der Denkfähigkeit. Allerdings sind Outcome Reward Models (ORMs) in RLVR zu grobkörnig, um fehlerhaftes Denken innerhalb korrekter Antworten oder gültiges Denken innerhalb falscher Antworten zu unterscheiden. Dieser Mangel an Granularität führt zu erheblich verrauschten und irreführenden Gradienten und behindert weitere Fortschritte in der Qualität des Denkprozesses. Während Process Reward Models (PRMs) feinkörnige Anleitung für Zwischenschritte bieten, leiden sie häufig unter Ungenauigkeiten und sind anfällig für Reward Hacking. Um dieses Dilemma zu lösen, führen wir den PRocess cOnsistency Filter (PROF) ein, eine effektive Methode zur Datenprozesskuratierung, die verrauschte, feinkörnige Prozessbelohnungen mit genauen, grobkörnigen Ergebnisbelohnungen harmonisiert. Anstatt PRM und ORM naiv in der Zielfunktion zu vermischen (arXiv:archive/2506.18896), nutzt PROF ihre komplementären Stärken durch konsistenzgetriebene Probenauswahl. Unser Ansatz behält korrekte Antworten mit höheren durchschnittlichen Prozesswerten und falsche Antworten mit niedrigeren durchschnittlichen Prozesswerten bei, während das Gleichgewicht zwischen positiven und negativen Trainingsproben erhalten bleibt. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur die Endgenauigkeit im Vergleich zu den Mischansätzen um über 4 % verbessert, sondern auch die Qualität der Zwischenschritte im Denkprozess stärkt. Codes und Trainingsrezepte sind unter https://github.com/Chenluye99/PROF verfügbar.
Sprachmodelle (LMs) treiben zunehmend reale Anwendungen an, die Weltwissen erfordern. Die internen Prozesse, durch die Modelle Daten in Repräsentationen von Wissen und Überzeugungen über die Welt umwandeln, sind jedoch kaum verstanden. Einblicke in diese Prozesse könnten den Weg ebnen, um LMs mit Wissensrepräsentationen zu entwickeln, die konsistenter, robuster und vollständiger sind. Um die Untersuchung dieser Fragen zu erleichtern, präsentieren wir LMEnt, eine Suite zur Analyse des Wissenserwerbs in LMs während des Vortrainings. LMEnt führt ein: (1) ein wissensreiches Vortrainingskorpus, vollständig annotiert mit Erwähnungen von Entitäten, basierend auf Wikipedia, (2) eine entitätsbasierte Retrieval-Methode über Vortrainingsdaten, die bisherige Ansätze um bis zu 80,4 % übertrifft, und (3) 12 vortrainierte Modelle mit bis zu 1B Parametern und 4K Zwischencheckpoints, die auf Wissensbenchmarks vergleichbare Leistungen zu populären Open-Source-Modellen aufweisen. Zusammen bieten diese Ressourcen eine kontrollierte Umgebung zur Analyse der Verbindungen zwischen Entitätserwähnungen im Vortraining und der Downstream-Leistung sowie der Auswirkungen von kausalen Interventionen in den Vortrainingsdaten. Wir zeigen den Nutzen von LMEnt, indem wir den Wissenserwerb über Checkpoints hinweg untersuchen und feststellen, dass die Häufigkeit von Fakten entscheidend ist, aber die Lerntrends nicht vollständig erklärt. Wir veröffentlichen LMEnt, um Studien zu Wissen in LMs zu unterstützen, einschließlich Wissensrepräsentationen, Plastizität, Bearbeitung, Attribution und Lerndynamiken.
Effektive Planung erfordert starke Weltmodelle, jedoch bleiben hochrangige Weltmodelle, die Aktionen mit semantischer und zeitlicher Abstraktion verstehen und darüber schlussfolgern können, weitgehend unterentwickelt. Wir stellen das Vision Language World Model (VLWM) vor, ein Foundation-Modell, das für die sprachbasierte Weltmodellierung anhand natürlicher Videos trainiert wurde. Bei visuellen Beobachtungen leitet das VLWM zunächst die Gesamtzielerreichung ab und prognostiziert dann eine Trajektorie, die aus verschachtelten Aktionen und Zustandsänderungen der Welt besteht. Diese Ziele werden durch iteratives LLM Self-Refine extrahiert, das auf komprimierte zukünftige Beobachtungen, dargestellt durch einen Tree of Captions, konditioniert ist. Das VLWM erlernt sowohl eine Aktionspolitik als auch ein Dynamikmodell, die jeweils das reaktive System-1-Plan-Decoding und das reflektierende System-2-Planning durch Kostenminimierung erleichtern. Die Kosten bewerten die semantische Distanz zwischen den hypothetischen zukünftigen Zuständen, die durch VLWM-Rollouts gegeben sind, und dem erwarteten Zielzustand, und werden durch ein Kritikmodell gemessen, das wir auf selbstüberwachte Weise trainiert haben. Das VLWM erreicht state-of-the-art Leistung bei der Visual Planning for Assistance (VPA) sowohl in Benchmark-Bewertungen als auch in unseren vorgeschlagenen PlannerArena-Human-Evaluierungen, wobei System-2 den Elo-Score um +27 % gegenüber System-1 verbessert. Die VLWM-Modelle übertreffen auch starke VLM-Baselines in den Benchmarks RoboVQA und WorldPrediction.
Die kontrollierbare Gesichtserzeugung stellt kritische Herausforderungen im Bereich des generativen Modellierens dar, da ein komplexes Gleichgewicht zwischen semantischer Steuerbarkeit und Fotorealismus erforderlich ist. Während bestehende Ansätze Schwierigkeiten haben, semantische Steuerungen von den Generierungspipelines zu entkoppeln, untersuchen wir das architektonische Potenzial von Diffusion Transformers (DiTs) durch die Linse der Expertenspezialisierung. Dieses Papier stellt Face-MoGLE vor, ein neuartiges Framework, das folgende Merkmale aufweist: (1) Semantisch-entkoppelte latente Modellierung durch masken-konditionierte Raumfaktorisierung, die eine präzise Attributmanipulation ermöglicht; (2) Eine Mischung aus globalen und lokalen Experten, die die ganzheitliche Struktur und regionsspezifische Semantik für eine fein abgestimmte Steuerbarkeit erfassen; (3) Ein dynamisches Gating-Netzwerk, das zeitabhängige Koeffizienten erzeugt, die sich mit den Diffusionsschritten und räumlichen Positionen entwickeln. Face-MoGLE bietet eine leistungsstarke und flexible Lösung für hochwertige, kontrollierbare Gesichtserzeugung mit starkem Potenzial im Bereich des generativen Modellierens und in Sicherheitsanwendungen. Umfangreiche Experimente demonstrieren seine Effektivität in multimodalen und monomodalen Gesichtserzeugungsszenarien sowie seine robuste Zero-Shot-Generalisierungsfähigkeit. Die Projektseite ist verfügbar unter https://github.com/XavierJiezou/Face-MoGLE.
Die personalisierte Generierung von Multi-Subjekten stellt einzigartige Herausforderungen dar, insbesondere in Bezug auf die Wahrung der Identitätstreue und semantischen Kohärenz bei der Synthese von Bildern, die auf mehrere Referenzsubjekte konditioniert sind. Bestehende Methoden leiden häufig unter Identitätsvermischung und Attributdurchlässigkeit, da die Interaktion verschiedener Subjekte in gemeinsamen Repräsentationsräumen unzureichend modelliert wird. Wir präsentieren MOSAIC, ein repräsentationszentriertes Framework, das die Multi-Subjekt-Generierung durch explizite semantische Korrespondenz und orthogonale Merkmalsentflechtung neu denkt. Unsere zentrale Erkenntnis ist, dass die Multi-Subjekt-Generierung eine präzise semantische Ausrichtung auf Repräsentationsebene erfordert – das exakte Wissen darüber, welche Regionen im generierten Bild auf welche Teile jedes Referenzsubjekts ausgerichtet sein sollten. Um dies zu ermöglichen, führen wir SemAlign-MS ein, einen sorgfältig annotierten Datensatz, der feinkörnige semantische Korrespondenzen zwischen mehreren Referenzsubjekten und Zielbildern bereitstellt, die bisher in diesem Bereich nicht verfügbar waren. Auf dieser Grundlage schlagen wir den semantischen Korrespondenz-Aufmerksamkeitsverlust vor, um eine präzise punkt-zu-punkt semantische Ausrichtung zu erzwingen und eine hohe Konsistenz von jeder Referenz zu ihren zugewiesenen Regionen sicherzustellen. Darüber hinaus entwickeln wir den Multi-Referenz-Entflechtungsverlust, um verschiedene Subjekte in orthogonale Aufmerksamkeitsunterräume zu drängen, wodurch Merkmalsinterferenzen verhindert werden, während individuelle Identitätsmerkmale erhalten bleiben. Umfangreiche Experimente zeigen, dass MOSAIC auf mehreren Benchmarks state-of-the-art Leistungen erzielt. Bemerkenswert ist, dass MOSAIC bei 4+ Referenzsubjekten eine hohe Treue bewahrt, während bestehende Methoden typischerweise bei mehr als 3 Subjekten an Qualität verlieren. Dies eröffnet neue Möglichkeiten für komplexe Multi-Subjekt-Syntheseanwendungen.
Die moderne robotergestützte Manipulation stützt sich hauptsächlich auf visuelle Beobachtungen in einem 2D-Farbraum für das Erlernen von Fähigkeiten, leidet jedoch unter einer schlechten Generalisierung. Im Gegensatz dazu verlassen sich Menschen, die in einer 3D-Welt leben, bei der Interaktion mit Objekten stärker auf physikalische Eigenschaften – wie Entfernung, Größe und Form – als auf Texturen. Da solche 3D-geometrischen Informationen von weit verbreiteten Tiefenkameras erfasst werden können, erscheint es machbar, Robotern ähnliche Wahrnehmungsfähigkeiten zu verleihen. Unsere Pilotstudie ergab, dass die Verwendung von Tiefenkameras für Manipulationsaufgaben herausfordernd ist, hauptsächlich aufgrund ihrer begrenzten Genauigkeit und Anfälligkeit für verschiedene Arten von Rauschen. In dieser Arbeit schlagen wir Camera Depth Models (CDMs) als einfache Erweiterung für alltägliche Tiefenkameras vor, die RGB-Bilder und Rohdaten der Tiefensignale als Eingabe verwenden und entrauschte, metrisch genaue Tiefeninformationen ausgeben. Um dies zu erreichen, entwickeln wir eine neuronale Datenengine, die hochwertige gepaarte Daten aus der Simulation generiert, indem sie das Rauschmuster einer Tiefenkamera modelliert. Unsere Ergebnisse zeigen, dass CDMs eine nahezu simulationsgenaue Tiefenvorhersage erreichen und damit effektiv die Lücke zwischen Simulation und Realität für Manipulationsaufgaben schließen. Bemerkenswerterweise demonstrieren unsere Experimente erstmals, dass eine Strategie, die auf rohen simulierten Tiefendaten trainiert wurde, ohne die Notwendigkeit von Rauschen oder Feinabstimmung in der realen Welt, nahtlos auf reale Roboter bei zwei anspruchsvollen Langzeitaufgaben mit artikulierten, reflektierenden und schlanken Objekten übertragbar ist, mit wenig bis keiner Leistungsverschlechterung. Wir hoffen, dass unsere Erkenntnisse zukünftige Forschungen zur Nutzung von Simulationsdaten und 3D-Informationen in allgemeinen Roboterstrategien inspirieren werden.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte allgemeine Fähigkeiten im Bereich des logischen Denkens demonstriert. Die systematische Bewertung und Verbesserung dieser Fähigkeiten gestaltet sich jedoch aufgrund des Mangels an kontrollierbaren und skalierbaren Werkzeugen für eine feingranulare Analyse als herausfordernd. Bestehende Benchmarks und Datensätze bieten oft nicht die notwendige Variablenkontrolle für eine mehrdimensionale, systematische Analyse und Schulung oder beschränken sich auf eng gefasste Problemtypen und Formate. Um diese Einschränkungen zu überwinden, stellen wir SATQuest vor, einen systematischen Verifizierer, der entwickelt wurde, um das logische Denken in LLMs zu bewerten und zu verbessern, indem er vielfältige, auf Erfüllbarkeit basierende logische Denkprobleme direkt aus Konjunktiven Normalformen (CNF) generiert. SATQuest strukturiert diese Probleme entlang drei orthogonaler Dimensionen: Instanzgröße, Problemtyp und Fragestellungsformat, und nutzt dabei randomisierte, SAT-basierte Problemgenerierung sowie objektive Antwortverifizierung mittels PySAT. Dieser Ansatz minimiert Gedächtnisprobleme, ermöglicht differenzierte Einblicke in die Denkleistung und erlaubt eine effektive Verstärkungsfeinabstimmung. Unsere umfangreiche Bewertung verschiedener LLMs mit SATQuest offenbarte signifikante Einschränkungen in ihrem logischen Denken, insbesondere bei der Verallgemeinerung über vertraute mathematische Formate hinaus. Darüber hinaus zeigen wir, dass eine Verstärkungsfeinabstimmung mit SATQuest-Belohnungen die Leistung bei gezielten Aufgaben erheblich verbessert und auf komplexere Instanzen verallgemeinert, während sie gleichzeitig verbleibende Herausforderungen bei der Anpassung über verschiedene Formate hinweg aufzeigt. Durch diese Demonstrationen verdeutlichen wir das Potenzial von SATQuest als grundlegendes Werkzeug und wertvollen Ausgangspunkt für die Weiterentwicklung des logischen Denkens in LLMs.