Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen EnerVerse vor, ein umfassendes Framework für die verkörperte zukünftige Raumgenerierung, das speziell für robotergestützte Manipulationstätigkeiten entwickelt wurde. EnerVerse integriert nahtlos Faltungs- und bidirektionale Aufmerksamkeitsmechanismen für die Modellierung des inneren Raumteils, um eine konsistente und kontinuierliche Darstellung auf niedriger Ebene sicherzustellen. Da wir die inhärente Redundanz in Videodaten erkennen, schlagen wir einen spärlichen Speicherkontext in Kombination mit einem stückweisen unidirektionalen generativen Paradigma vor, um die Generierung unendlich langer Sequenzen zu ermöglichen. Um die robotergestützten Fähigkeiten weiter zu verbessern, führen wir den Free Anchor View (FAV) Raum ein, der flexible Perspektiven bietet, um Beobachtung und Analyse zu verbessern. Der FAV-Raum reduziert Modellierungsambiguität bei Bewegungen, beseitigt physische Einschränkungen in begrenzten Umgebungen und verbessert signifikant die Generalisierung und Anpassungsfähigkeit des Roboters über verschiedene Aufgaben und Umgebungen hinweg. Um den hohen Kosten und dem Arbeitsaufwand bei der Beschaffung von Mehrkamera-Beobachtungen entgegenzuwirken, präsentieren wir eine Datenmotor-Pipeline, die ein generatives Modell mit 4D-Gauß-Splatting (4DGS) integriert. Diese Pipeline nutzt die robusten Generalisierungsfähigkeiten des generativen Modells und die räumlichen Einschränkungen, die 4DGS bietet, um eine iterative Verbesserung der Datenqualität und -vielfalt zu ermöglichen. Dadurch entsteht ein Datenfließrad-Effekt, der den Sim-zu-Real-Unterschied effektiv verringert. Schließlich zeigen unsere Experimente, dass die verkörperte zukünftige Raumgenerierung erheblich die Vorhersagefähigkeiten der Richtlinien verbessert, was zu einer insgesamt besseren Leistung führt, insbesondere bei robotergestützten Manipulationstätigkeiten über große Entfernungen.
Aktuelle Multimodale Große Sprachmodelle (MLLMs) haben sich in der Regel darauf konzentriert, visuelle und textuelle Modalitäten zu integrieren, wobei weniger Wert auf die Rolle der Sprache zur Verbesserung der Interaktion gelegt wurde. Sprache spielt jedoch eine entscheidende Rolle in multimodalen Dialogsystemen, und die Implementierung von Hochleistungen in sowohl visuellen als auch sprachlichen Aufgaben bleibt eine bedeutende Herausforderung aufgrund der grundlegenden Modalitätsunterschiede. In diesem Paper schlagen wir eine sorgfältig konzipierte mehrstufige Schulungsmethodik vor, die LLM progressiv trainiert, um sowohl visuelle als auch sprachliche Informationen zu verstehen und letztendlich eine fließende Vision- und Sprachinteraktion zu ermöglichen. Unser Ansatz bewahrt nicht nur eine starke Vision-Sprach-Kapazität, sondern ermöglicht auch effiziente Sprach-zu-Sprach-Dialogfähigkeiten ohne separate ASR- und TTS-Module, was die multimodale End-to-End-Antwortgeschwindigkeit signifikant beschleunigt. Durch den Vergleich unserer Methode mit State-of-the-Art-Gegenstücken über Benchmarks für Bild-, Video- und Sprachaufgaben zeigen wir, dass unser Modell sowohl über starke visuelle als auch sprachliche Fähigkeiten verfügt und eine nahezu Echtzeit-Vision- und Sprachinteraktion ermöglicht.
In letzter Zeit haben langsam denkende Begründungssysteme, die auf großen Sprachmodellen (LLMs) aufbauen, durch die Skalierung der Denkzeit während der Inferenz weit verbreitete Aufmerksamkeit erregt. Es besteht auch ein wachsendes Interesse daran, diese Fähigkeit auf multimodale große Sprachmodelle (MLLMs) anzupassen. Da MLLMs komplexere Datensemantiken über verschiedene Modalitäten hinweg verarbeiten, ist es intuitiv herausfordernder, multimodale langsam denkende Systeme zu implementieren. Um dieses Problem anzugehen, untersuchen wir in diesem Papier einen einfachen Ansatz, indem wir ein leistungsfähiges MLLM mit einer geringen Menge an textuellen Langform-Denkdaten feinabstimmen, was zu einem multimodalen langsam denkenden System, Virgo (Visuelle Begründung mit langem Denken), führt. Wir stellen fest, dass diese Langform-Begründungsprozesse, die in natürlicher Sprache ausgedrückt sind, effektiv auf MLLMs übertragen werden können. Darüber hinaus scheint es, dass solche textuellen Begründungsdaten sogar effektiver sein können als visuelle Begründungsdaten, um die langsam denkenden Kapazitäten von MLLMs hervorzurufen. Obwohl diese Arbeit vorläufig ist, zeigt sie, dass langsam denkende Kapazitäten grundlegend mit dem Sprachmodellkomponenten verbunden sind, die über Modalitäten oder Domänen hinweg übertragen werden können. Diese Erkenntnis kann genutzt werden, um die Entwicklung leistungsfähigerer langsam denkender Begründungssysteme zu lenken. Wir veröffentlichen unsere Ressourcen unter https://github.com/RUCAIBox/Virgo.
Soziale Agenten, die von großen Sprachmodellen (LLMs) betrieben werden, können menschliches soziales Verhalten simulieren, scheitern jedoch daran, komplexe zielgerichtete soziale Dialoge zu bewältigen. Die Direkte Präferenzoptimierung (DPO) hat sich als wirksam erwiesen, um das Verhalten von LLMs bei einer Vielzahl von Agentenaufgaben mit menschlichen Präferenzen in Einklang zu bringen. Bestehende DPO-basierte Ansätze für Mehrfachinteraktionen werden in Turn-Level- und Session-Level-Methoden unterteilt. Die Turn-Level-Methode ist zu feingliedrig und konzentriert sich ausschließlich auf einzelne Turns, während Session-Level-Methoden zu grobgliedrig sind und häufig Trainingsrauschen einführen. Um diese Einschränkungen zu adressieren, schlagen wir die Segment-Level-Direkte Präferenzoptimierung (SDPO) vor, die sich auf spezifische Schlüsselsegmente innerhalb von Interaktionen konzentriert, um das Verhalten von Mehrfachagenten zu optimieren und gleichzeitig das Trainingsrauschen zu minimieren. Evaluationen am SOTOPIA-Benchmark zeigen, dass SDPO-abgestimmte Agenten konsequent sowohl bestehende DPO-basierte Methoden als auch proprietäre LLMs wie GPT-4o übertreffen, was das Potenzial von SDPO zur Weiterentwicklung der sozialen Intelligenz von LLM-basierten Agenten unterstreicht. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Wir präsentieren eine allgemeine Strategie zur Ausrichtung von visuellen Generierungsmodellen - sowohl für die Bild- als auch für die Videogenerierung - an menschlichen Präferenzen. Zunächst erstellen wir VisionReward - ein fein abgestimmtes und multidimensionales Belohnungsmodell. Wir zerlegen menschliche Präferenzen in Bildern und Videos in mehrere Dimensionen, die jeweils durch eine Reihe von Beurteilungsfragen repräsentiert werden, linear gewichtet und zu einem interpretierbaren und genauen Ergebnis summiert werden. Um den Herausforderungen der Bewertung der Videoqualität zu begegnen, analysieren wir systematisch verschiedene dynamische Merkmale von Videos, die VisionReward helfen, VideoScore um 17,2% zu übertreffen und die Spitzenleistung bei der Vorhersage von Videopräferenzen zu erreichen. Basierend auf VisionReward entwickeln wir einen multiobjektiven Präferenzlernalgorithmus, der das Problem der Störfaktoren in Präferenzdaten effektiv angeht. Unser Ansatz übertrifft signifikant bestehende Methoden zur Bewertung von Bildern und Videos sowohl hinsichtlich maschineller Metriken als auch menschlicher Bewertung. Der gesamte Code und die Datensätze sind unter https://github.com/THUDM/VisionReward verfügbar.
Die Generierung von Graphen ist eine entscheidende Aufgabe in zahlreichen Bereichen, einschließlich der molekularen Gestaltung und der Analyse sozialer Netzwerke, aufgrund ihrer Fähigkeit, komplexe Beziehungen und strukturierte Daten zu modellieren. Während die meisten modernen Modelle zur generativen Graphmodellierung Adjazenzmatrixdarstellungen verwenden, überdenkt diese Arbeit einen alternativen Ansatz, der Graphen als Sequenzen von Knotenmengen und Kantenmengen darstellt. Wir befürworten diesen Ansatz aufgrund seiner effizienten Kodierung von Graphen und schlagen eine neuartige Darstellung vor. Basierend auf dieser Darstellung stellen wir den Graph Generative Pre-trained Transformer (G2PT) vor, ein autoregressives Modell, das Graphstrukturen durch die Vorhersage des nächsten Tokens lernt. Um die Fähigkeiten von G2PT als allgemeines Grundlagenmodell weiter zu nutzen, untersuchen wir Feinabstimmungsstrategien für zwei nachgelagerte Anwendungen: zielgerichtete Generierung und Vorhersage von Grapheneigenschaften. Wir führen umfangreiche Experimente über mehrere Datensätze durch. Die Ergebnisse zeigen, dass G2PT eine überlegene generative Leistung sowohl auf generischen Graphen- als auch auf Moleküldatensätzen erzielt. Darüber hinaus zeigt G2PT eine starke Anpassungsfähigkeit und Vielseitigkeit bei nachgelagerten Aufgaben von der molekularen Gestaltung bis zur Eigenschaftsvorhersage.
In jüngster Zeit haben Fortschritte bei großen Sprachmodellen (LLMs) basierte Einbettungsmodelle neue Spitzenwerte für Texteinbettungsaufgaben etabliert, insbesondere im Bereich der dichten Vektor-basierten Rückgewinnung. Diese Modelle konzentrieren sich jedoch hauptsächlich auf Englisch, wodurch die mehrsprachigen Einbettungsfähigkeiten weitgehend unerforscht bleiben. Um diese Einschränkung zu überwinden, präsentieren wir LUSIFER, einen innovativen Zero-Shot-Ansatz, der LLM-basierte Einbettungsmodelle für mehrsprachige Aufgaben anpasst, ohne mehrsprachige Aufsicht zu erfordern. Die Architektur von LUSIFER kombiniert einen mehrsprachigen Encoder, der als sprachuniverseller Lernender dient, mit einem LLM-basierten Einbettungsmodell, das für auf Einbettungen spezifische Aufgaben optimiert ist. Diese Komponenten sind nahtlos durch eine minimale Menge an trainierbaren Parametern integriert, die als Verbindungselemente fungieren und die sprachverstehenden Fähigkeiten des mehrsprachigen Encoders effektiv auf das spezialisierte Einbettungsmodell übertragen. Zusätzlich führen wir zur umfassenden Bewertung der mehrsprachigen Einbettungsleistung einen neuen Benchmark ein, der 5 primäre Einbettungsaufgaben, 123 verschiedene Datensätze und eine Abdeckung von 14 Sprachen umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass LUSIFER die mehrsprachige Leistung bei verschiedenen Einbettungsaufgaben signifikant verbessert, insbesondere für mittel- und geringfügig ressourcenreiche Sprachen, ohne explizite mehrsprachige Trainingsdaten zu erfordern.
Das Verständnis der Welt und ihre Erklärung mit wissenschaftlichen Theorien ist ein zentrales Anliegen der Forschung im Bereich der künstlichen Intelligenz. Das Vorschlagen von Theorien, das Entwerfen von Experimenten zur Überprüfung von ihnen und dann das Überarbeiten basierend auf Daten sind grundlegend für wissenschaftliche Entdeckungen. Trotz des bedeutenden Potenzials von auf LLM basierenden wissenschaftlichen Agenten gibt es keine Benchmarks, die systematisch die Fähigkeit von LLM testen, wissenschaftliche Modelle vorzuschlagen, experimentelle Daten zu sammeln und sie im Licht neuer Daten zu überarbeiten. Wir stellen BoxingGym vor, einen Benchmark mit 10 Umgebungen zur systematischen Bewertung sowohl des experimentellen Designs (z. B. Datensammlung zur Überprüfung einer wissenschaftlichen Theorie) als auch der Modellentdeckung (z. B. Vorschlagen und Überarbeiten von wissenschaftlichen Theorien). Um eine handhabbare und quantitative Bewertung zu ermöglichen, implementieren wir jede Umgebung als generatives probabilistisches Modell, mit dem ein wissenschaftlicher Agent interaktive Experimente durchführen kann. Diese probabilistischen Modelle stammen aus verschiedenen realen wissenschaftlichen Bereichen, von Psychologie bis Ökologie. Um die Fähigkeit eines wissenschaftlichen Agenten zur Sammlung informativer experimenteller Daten quantitativ zu bewerten, berechnen wir den erwarteten Informationsgewinn (EIG), eine informations-theoretische Größe, die misst, wie sehr ein Experiment die Unsicherheit über die Parameter eines generativen Modells reduziert. Eine gute wissenschaftliche Theorie ist eine prägnante und vorhersagende Erklärung. Daher bitten wir zur quantitativen Bewertung der Modellentdeckung einen wissenschaftlichen Agenten, ihr Modell zu erklären, und bewerten dann, ob diese Erklärung einem anderen wissenschaftlichen Agenten ermöglicht, zuverlässige Vorhersagen über diese Umgebung zu treffen. Neben dieser erklärungsbasierten Bewertung berechnen wir auch standardmäßige Modellbewertungsmetriken wie Vorhersagefehler. Wir stellen fest, dass aktuelle LLMs, wie z. B. GPT-4o, sowohl mit dem experimentellen Design als auch mit der Modellentdeckung zu kämpfen haben. Wir stellen fest, dass die Ergänzung des auf LLM basierenden Agenten mit einem expliziten statistischen Modell diese Ergebnisse nicht zuverlässig verbessert.