papers.description
Wissenschaftliche Large Language Models (Sci-LLMs) revolutionieren die Art und Weise, wie Wissen in der wissenschaftlichen Forschung repräsentiert, integriert und angewendet wird. Dennoch wird ihre Entwicklung durch die komplexe Natur wissenschaftlicher Daten geprägt. Diese Übersichtsarbeit präsentiert eine umfassende, datenzentrierte Synthese, die die Entwicklung von Sci-LLMs als eine Ko-Evolution zwischen Modellen und ihrem zugrunde liegenden Daten-Substrat neu interpretiert. Wir formulieren eine einheitliche Taxonomie wissenschaftlicher Daten und ein hierarchisches Modell wissenschaftlichen Wissens, wobei wir die multimodalen, skalenübergreifenden und domänenspezifischen Herausforderungen betonen, die wissenschaftliche Korpora von allgemeinen Datensätzen der natürlichen Sprachverarbeitung unterscheiden. Wir untersuchen systematisch aktuelle Sci-LLMs, von allgemeinen Grundlagenmodellen bis hin zu spezialisierten Modellen in verschiedenen wissenschaftlichen Disziplinen, und führen eine umfangreiche Analyse von über 270 Vor- und Nachtrainingsdatensätzen durch, um zu zeigen, warum Sci-LLMs besondere Anforderungen stellen – heterogene, multiskalige, unsicherheitsbehaftete Korpora, die Repräsentationen erfordern, die Domäneninvarianz bewahren und domänenübergreifendes Schließen ermöglichen. Bei der Evaluation betrachten wir über 190 Benchmark-Datensätze und zeichnen einen Wandel von statischen Prüfungen hin zu prozess- und entdeckungsorientierten Bewertungen mit fortschrittlichen Evaluationsprotokollen nach. Diese datenzentrierten Analysen beleuchten anhaltende Probleme in der Entwicklung wissenschaftlicher Daten und diskutieren aufkommende Lösungen, die halbautomatisierte Annotationspipelines und Expertenvalidierung einbeziehen. Schließlich skizzieren wir einen Paradigmenwechsel hin zu geschlossenen Systemen, in denen autonome Agenten auf Basis von Sci-LLMs aktiv experimentieren, validieren und zu einer lebendigen, sich entwickelnden Wissensbasis beitragen. Zusammengenommen bietet diese Arbeit einen Fahrplan für den Aufbau vertrauenswürdiger, kontinuierlich weiterentwickelter künstlicher Intelligenz (KI)-Systeme, die als echte Partner bei der Beschleunigung wissenschaftlicher Entdeckungen fungieren.
Multimodale Large Language Models (MLLMs) mit schrittweisem Denkvermögen haben bemerkenswerte Leistungen bei komplexen Denkaufgaben gezeigt. Dieser Denkprozess ist jedoch für einfache Probleme, die ohne komplexe Denkprozesse lösbar sind, redundant. Um diese Ineffizienz zu beheben, schlagen wir R-4B vor, ein auto-denkendes MLLM, das adaptiv entscheiden kann, wann es denken soll, basierend auf der Problemkomplexität. Die zentrale Idee von R-4B besteht darin, das Modell sowohl mit Denk- als auch mit Nicht-Denk-Fähigkeiten auszustatten, indem bi-modales Annealing verwendet wird, und Bi-mode Policy Optimization (BPO) anzuwenden, um die Genauigkeit des Modells bei der Entscheidung, ob der Denkprozess aktiviert werden soll, zu verbessern. Konkret trainieren wir das Modell zunächst auf einem sorgfältig kuratierten Datensatz, der verschiedene Themen abdeckt und sowohl Proben aus dem Denk- als auch aus dem Nicht-Denk-Modus enthält. Anschließend durchläuft es eine zweite Trainingsphase unter einem verbesserten GRPO-Rahmen, bei dem das Policy-Modell gezwungen wird, für jede Eingabeantworten aus beiden Modi zu generieren. Experimentelle Ergebnisse zeigen, dass R-4B auf 25 anspruchsvollen Benchmarks state-of-the-art Leistungen erzielt. Es übertrifft Qwen2.5-VL-7B in den meisten Aufgaben und erreicht eine Leistung, die mit größeren Modellen wie Kimi-VL-A3B-Thinking-2506 (16B) auf Denk-intensiven Benchmarks vergleichbar ist, jedoch mit geringeren Rechenkosten.
Die menschliche Fähigkeit, multimodales Denken und physische Interaktion in der offenen Welt nahtlos auszuführen, ist ein Kernziel für allgemeine, verkörperte intelligente Systeme. Aktuelle Vision-Sprache-Aktion (VLA)-Modelle, die auf groß angelegten Robotik- und visuell-textuellen Daten gemeinsam trainiert werden, haben bemerkenswerte Fortschritte in der allgemeinen Robotersteuerung gezeigt. Dennoch erreichen sie nicht die menschliche Flexibilität bei verschränktem Denken und Interaktion. In dieser Arbeit stellen wir EO-Robotics vor, bestehend aus dem EO-1-Modell und dem EO-Data1.5M-Datensatz. EO-1 ist ein einheitliches, verkörpertes Grundlagenmodell, das durch verschränktes Vision-Text-Aktion-Vortraining überlegene Leistungen in multimodaler verkörperter Denkfähigkeit und Robotersteuerung erzielt. Die Entwicklung von EO-1 basiert auf zwei Schlüsselsäulen: (i) einer einheitlichen Architektur, die multimodale Eingaben (Bild, Text, Video und Aktion) gleichwertig verarbeitet, und (ii) einem massiven, hochwertigen multimodalen verkörperten Denkdatensatz, EO-Data1.5M, der über 1,5 Millionen Proben mit Schwerpunkt auf verschränktem Vision-Text-Aktion-Verständnis enthält. EO-1 wird durch Synergien zwischen autoregressiver Dekodierung und Flow-Matching-Entrauschung auf EO-Data1.5M trainiert, was nahtlose Roboteraktionsgenerierung und multimodales verkörpertes Denken ermöglicht. Umfangreiche Experimente demonstrieren die Wirksamkeit des verschränkten Vision-Text-Aktion-Lernens für das Verständnis und die Generalisierung in der offenen Welt, validiert durch eine Vielzahl von langfristigen, geschickten Manipulationsaufgaben über mehrere Verkörperungen hinweg. Dieses Papier beschreibt detailliert die Architektur von EO-1, die Datenkonstruktionsstrategie von EO-Data1.5M und die Trainingsmethodik und bietet wertvolle Einblicke für die Entwicklung fortschrittlicher verkörperter Grundlagenmodelle.
Skalierungsgesetze haben den Erfolg und das Potenzial von Modellen, die mit großen Datenmengen trainiert wurden, in der kreativen Generierung über Text-, Bild- und Videobereiche hinweg bestätigt. Allerdings steht dieses Paradigma im 3D-Bereich vor dem Problem der Datenknappheit, da im Vergleich zu den genannten Modalitäten weit weniger davon im Internet verfügbar ist. Glücklicherweise gibt es ausreichend Videos, die inhärent Common-Sense-Priors enthalten und somit ein alternatives Überwachungssignal bieten, um den durch begrenzte native 3D-Daten verursachten Generalisierungsengpass zu mildern. Einerseits bieten Videos, die mehrere Ansichten eines Objekts oder einer Szene erfassen, ein räumliches Konsistenzprior für die 3D-Generierung. Andererseits ermöglicht die reiche semantische Information in den Videos, dass der generierte Inhalt textgetreuer und semantisch plausibler ist. Diese Arbeit untersucht, wie die Videomodalität in der 3D-Asset-Generierung angewendet werden kann, von Datensätzen bis hin zu Modellen. Wir stellen Droplet3D-4M vor, den ersten groß angelegten Videodatensatz mit Annotationen auf Multi-View-Ebene, und trainieren Droplet3D, ein generatives Modell, das sowohl Bild- als auch dichte Texteingaben unterstützt. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und zeigen seine Fähigkeit, räumlich konsistenten und semantisch plausiblen Inhalt zu erzeugen. Darüber hinaus zeigt unser Ansatz im Gegensatz zu den vorherrschenden 3D-Lösungen das Potenzial für eine Erweiterung auf Anwendungen auf Szenenebene. Dies deutet darauf hin, dass die Common-Sense-Priors aus den Videos die 3D-Erstellung erheblich erleichtern. Wir haben alle Ressourcen, einschließlich des Datensatzes, des Codes, des technischen Frameworks und der Modellgewichte, open-source veröffentlicht: https://dropletx.github.io/.
Die zunehmende Verbreitung großer Sprachmodelle (LLMs) in der Softwareentwicklung erfordert eine rigorose Sicherheitsbewertung des von ihnen generierten Codes. Bestehende Benchmarks sind jedoch unzureichend, da sie sich auf isolierte Codeausschnitte konzentrieren, instabile Bewertungsmethoden verwenden, die nicht reproduzierbar sind, und die Qualität des Eingabekontexts nicht mit der Sicherheit der Ausgabe verbinden. Um diese Lücken zu schließen, stellen wir A.S.E (AI Code Generation Security Evaluation) vor, einen Benchmark für die sichere Codegenerierung auf Repository-Ebene. A.S.E erstellt Aufgaben aus realen Repositories mit dokumentierten CVEs und bewahrt den vollständigen Repository-Kontext wie Build-Systeme und dateiübergreifende Abhängigkeiten. Sein reproduzierbares, containerisiertes Bewertungsframework verwendet von Experten definierte Regeln, um stabile, überprüfbare Bewertungen von Sicherheit, Build-Qualität und Generierungsstabilität zu liefern. Unsere Bewertung führender LLMs auf A.S.E zeigt drei zentrale Erkenntnisse: (1) Claude-3.7-Sonnet erzielt die beste Gesamtleistung. (2) Die Sicherheitslücke zwischen proprietären und Open-Source-Modellen ist gering; Qwen3-235B-A22B-Instruct erreicht die höchste Sicherheitsbewertung. (3) Prägnante, „schnell denkende“ Dekodierungsstrategien übertreffen durchweg komplexe, „langsam denkende“ Ansätze bei der Sicherheitspatching.
Große Sprachmodelle (LLMs) glänzen bei komplexen Denkaufgaben wie Mathematik und Programmierung, haben jedoch häufig Schwierigkeiten mit einfachen interaktiven Aufgaben, die kleine Kinder mühelos bewältigen. Diese Diskrepanz verdeutlicht eine entscheidende Lücke zwischen deklarativem Wissen (das Wissen über etwas) und prozeduralem Wissen (das Wissen, wie man etwas macht). Obwohl traditionelle Reinforcement-Learning-Agenten (RL) prozedurales Wissen durch Interaktion mit der Umwelt erwerben können, agieren sie oft als Blackbox und benötigen umfangreiche Trainingsdaten. Im Gegensatz dazu verfügen LLMs über umfangreiches Weltwissen und Denkfähigkeiten, sind jedoch nicht in der Lage, dieses statische Wissen effektiv in dynamische Entscheidungsfindung in interaktiven Umgebungen umzusetzen. Um diese Herausforderung zu bewältigen, schlagen wir Think in Games (TiG) vor, ein neuartiges Framework, das LLMs befähigt, prozedurales Verständnis durch direkte Interaktion mit Spielumgebungen zu entwickeln, während sie ihre inhärenten Denk- und Erklärungsfähigkeiten beibehalten. Konkret formuliert TiG RL-basierte Entscheidungsfindung als Sprachmodellierungsaufgabe um: LLMs generieren sprachgesteuerte Richtlinien, die durch Online-Reinforcement-Learning basierend auf Umweltfeedback iterativ verfeinert werden. Unsere experimentellen Ergebnisse zeigen, dass TiG erfolgreich die Lücke zwischen deklarativem und prozeduralem Wissen schließt und dabei eine wettbewerbsfähige Leistung mit deutlich geringerem Daten- und Rechenaufwand im Vergleich zu herkömmlichen RL-Methoden erzielt. Darüber hinaus liefert TiG schrittweise natürliche Spracherklärungen für seine Entscheidungen, was die Transparenz und Interpretierbarkeit bei komplexen interaktiven Aufgaben erheblich verbessert.
Die audiogesteuerte Synthese von sprechenden Köpfen hat bemerkenswerte Fotorealismen erreicht, doch zeigen die State-of-the-Art (SOTA)-Modelle einen kritischen Mangel: Es fehlt ihnen an Generalisierungsfähigkeit für die gesamte Bandbreite menschlicher Vielfalt in Bezug auf Ethnizität, Sprache und Altersgruppen. Wir argumentieren, dass diese Generalisierungslücke ein direktes Symptom der Einschränkungen in den vorhandenen Trainingsdaten ist, denen es an notwendigem Umfang, Qualität und Vielfalt mangelt. Um diese Herausforderung zu bewältigen, stellen wir TalkVid vor, einen neuen, groß angelegten, hochwertigen und vielfältigen Datensatz, der 1244 Stunden Video von 7729 einzigartigen Sprechern enthält. TalkVid wird durch einen prinzipiellen, mehrstufigen automatisierten Pipeline-Prozess kuratiert, der streng auf Bewegungsstabilität, ästhetische Qualität und Gesichtsdetails filtert und durch menschliche Beurteilungen validiert wird, um seine Zuverlässigkeit sicherzustellen. Darüber hinaus konstruieren und veröffentlichen wir TalkVid-Bench, ein geschichtetes Evaluationsset von 500 Clips, das sorgfältig über wichtige demografische und linguistische Achsen ausbalanciert ist. Unsere Experimente zeigen, dass ein auf TalkVid trainiertes Modell Modelle, die auf früheren Datensätzen trainiert wurden, übertrifft und eine überlegene Generalisierung über Datensätze hinweg aufweist. Entscheidend ist, dass unsere Analyse auf TalkVid-Bench Leistungsunterschiede zwischen Untergruppen aufdeckt, die durch traditionelle aggregierte Metriken verdeckt werden, und damit ihre Notwendigkeit für zukünftige Forschung unterstreicht. Code und Daten sind unter https://github.com/FreedomIntelligence/TalkVid verfügbar.
Die Datenmischung, die beim Vortraining eines Sprachmodells verwendet wird, ist ein Grundpfeiler für dessen finale Leistung. Allerdings ist eine statische Mischstrategie suboptimal, da sich die Lernpräferenzen des Modells für verschiedene Datenbereiche dynamisch während des Trainings verändern. Entscheidend ist, dass die Beobachtung dieser sich entwickelnden Präferenzen auf eine recheneffiziente Weise eine erhebliche Herausforderung darstellt. Um dies zu adressieren, schlagen wir TiKMiX vor, eine Methode, die die Datenmischung dynamisch an die sich entwickelnden Präferenzen des Modells anpasst. TiKMiX führt den Gruppen-Einfluss ein, eine effiziente Metrik zur Bewertung der Auswirkung von Datenbereichen auf das Modell. Diese Metrik ermöglicht die Formulierung des Datenmischungsproblems als Suche nach einer optimalen, einflussmaximierenden Verteilung. Wir lösen dies durch zwei Ansätze: TiKMiX-D für die direkte Optimierung und TiKMiX-M, das ein Regressionsmodell verwendet, um eine überlegene Mischung vorherzusagen. Wir trainierten Modelle mit unterschiedlichen Parameternzahlen auf bis zu 1 Billion Token. TiKMiX-D übertrifft die Leistung von state-of-the-art Methoden wie REGMIX, während nur 20% der Rechenressourcen verwendet werden. TiKMiX-M führt zu einer durchschnittlichen Leistungssteigerung von 2% über 9 Downstream-Benchmarks hinweg. Unsere Experimente zeigen, dass sich die Datenpräferenzen eines Modells mit dem Trainingsfortschritt und der Skalierung entwickeln, und wir demonstrieren, dass die dynamische Anpassung der Datenmischung basierend auf dem Gruppen-Einfluss, einem direkten Maß dieser Präferenzen, die Leistung signifikant verbessert, indem die Unterverdauung von Daten, die bei statischen Verhältnissen beobachtet wird, gemildert wird.
jina-code-embeddings ist eine neuartige Suite von Code-Embedding-Modellen, die entwickelt wurde, um Code anhand von natürlichen Sprachabfragen abzurufen, technische Fragen zu beantworten und semantisch ähnliche Code-Snippets über verschiedene Programmiersprachen hinweg zu identifizieren. Das Modell nutzt innovativ ein autoregressives Backbone-Modell, das sowohl auf Text als auch auf Code vortrainiert wurde, und generiert Embeddings durch Last-Token-Pooling. Wir skizzieren das Trainingsrezept und demonstrieren state-of-the-art Leistungen trotz der relativ geringen Größe der Modelle, wodurch dieser Ansatz zur Konstruktion von Code-Embedding-Modellen validiert wird.
Der GUI-Agent zielt darauf ab, automatisierte Operationen auf Mobilgeräten und PCs zu ermöglichen, was eine wichtige Aufgabe auf dem Weg zur Erreichung einer allgemeinen künstlichen Intelligenz darstellt. Die rasante Entwicklung von VLMs (Vision-Language Models) beschleunigt die Entwicklung von GUI-Agenten aufgrund ihrer leistungsstarken Fähigkeiten in der visuellen Wahrnehmung und Aufgabenplanung. Dennoch bleibt der Aufbau eines GUI-Agenten eine herausfordernde Aufgabe, was auf den Mangel an Betriebstrajektorien, die Verfügbarkeit interaktiver Infrastruktur und die begrenzten Anfangsfähigkeiten von Basismodellen zurückzuführen ist. In dieser Arbeit stellen wir UItron vor, ein Open-Source-Basismodell für automatische GUI-Agenten, das fortschrittliche Fähigkeiten in der GUI-Wahrnehmung, -Verankerung und -Planung bietet. UItron unterstreicht die Notwendigkeit systematischer Datenverarbeitung und interaktiver Infrastruktur als grundlegende Komponenten für die Weiterentwicklung von GUI-Agenten. Es untersucht nicht nur systematisch eine Reihe von Datenverarbeitungsstrategien, um die Trainingseffekte zu verbessern, sondern schafft auch eine interaktive Umgebung, die sowohl Mobilgeräte als auch PCs verbindet. Im Training verwendet UItron überwachtes Feinabstimmen für Wahrnehmungs- und Planungsaufgaben in verschiedenen GUI-Szenarien und entwickelt anschließend ein Curriculum Reinforcement Learning Framework, um komplexe Schlussfolgerungen und Explorationen in Online-Umgebungen zu ermöglichen. Als Ergebnis erzielt UItron überragende Leistungen in Benchmarks für GUI-Wahrnehmung, -Verankerung und -Planung. Insbesondere hebt UItron die Interaktionskompetenz mit erstklassigen chinesischen Mobil-Apps hervor, da wir festgestellt haben, dass selbst in modernsten Lösungen allgemeine Fähigkeiten für Chinesisch fehlen. Zu diesem Zweck sammeln wir manuell über eine Million Schritte von Betriebstrajektorien in den 100 beliebtesten Apps und bauen Offline- und Online-Agentenbewertungsumgebungen auf. Experimentelle Ergebnisse zeigen, dass UItron in chinesischen App-Szenarien erhebliche Fortschritte erzielt und GUI-Agenten einen Schritt näher an die reale Anwendung bringt.
Bewertungen von Audio-Sprachmodellen (ALMs) – multimodale Modelle, die verschachtelte Audio- und Textdaten als Eingabe erhalten und Text ausgeben – werden durch das Fehlen standardisierter Benchmarks behindert; die meisten Benchmarks messen nur eine oder zwei Fähigkeiten und lassen Bewertungsaspekte wie Fairness oder Sicherheit außer Acht. Darüber hinaus ist der Vergleich zwischen Modellen schwierig, da separate Bewertungen nur eine begrenzte Anzahl von Modellen testen und unterschiedliche Prompting-Methoden und Inferenzparameter verwenden. Um diese Defizite zu beheben, stellen wir AHELM vor, einen Benchmark, der verschiedene Datensätze zusammenfasst – einschließlich zweier neuer synthetischer Audio-Text-Datensätze namens PARADE, der die ALMs auf die Vermeidung von Stereotypen testet, und CoRe-Bench, der das schlussfolgernde Denken über Konversations-Audio durch mehrstufige Frage-Antwort-Aufgaben misst –, um die Leistung von ALMs ganzheitlich über 10 Aspekte zu bewerten, die wir als wichtig für die Entwicklung und Nutzung von ALMs identifiziert haben: Audio-Wahrnehmung, Wissen, Schlussfolgerung, Emotionserkennung, Bias, Fairness, Mehrsprachigkeit, Robustheit, Toxizität und Sicherheit. Wir standardisieren auch die Prompts, Inferenzparameter und Bewertungsmetriken, um faire Vergleiche zwischen den Modellen zu gewährleisten. Wir testen 14 Open-Weight- und Closed-API-ALMs von 3 Entwicklern sowie 3 zusätzliche einfache Basissysteme, die jeweils aus einem automatischen Spracherkenner und einem Sprachmodell bestehen. Unsere Ergebnisse zeigen, dass Gemini 2.5 Pro zwar in 5 von 10 Aspekten an der Spitze steht, jedoch bei ASR-Aufgaben Gruppenungerechtigkeit (p=0,01) aufweist, während die meisten anderen Modelle dies nicht tun. Wir stellen außerdem fest, dass die Basissysteme auf AHELM recht gut abschneiden, wobei eines trotz nur textbasierter Sprach-zu-Text-Fähigkeiten insgesamt den 5. Platz belegt. Für Transparenz sind alle Rohprompts, Modellgenerationen und Ausgaben auf unserer Website unter https://crfm.stanford.edu/helm/audio/v1.0.0 verfügbar. AHELM soll ein lebendiger Benchmark sein, und im Laufe der Zeit werden neue Datensätze und Modelle hinzugefügt.
Jüngste Fortschritte bei der Anwendung von Reinforcement Learning (RL) auf große Sprachmodelle (LLMs) haben zu erheblichen Fortschritten geführt. Insbesondere wurde eine Reihe bemerkenswerter, aber oft kontraintuitiver Phänomene in LLMs berichtet, die Muster zeigen, die in traditionellen RL-Umgebungen typischerweise nicht beobachtet werden. Beispielsweise umfassen bemerkenswerte Behauptungen, dass ein einzelnes Trainingsbeispiel die Leistung erreichen kann, die mit einem gesamten Datensatz erzielt wird, dass das Belohnungssignal nicht sehr präzise sein muss und dass das Training ausschließlich mit negativen Beispielen die Leistung von anspruchsvollen belohnungsbasierten Methoden erreichen oder sogar übertreffen kann. Die genauen Bedingungen, unter denen diese Beobachtungen gelten – und, entscheidend, wann sie versagen – bleiben jedoch unklar. In dieser Arbeit identifizieren wir einen Schlüsselfaktor, der RL-Beobachtungen unterscheidet: ob das vortrainierte Modell bereits eine starke Modell-Aufgaben-Ausrichtung aufweist, gemessen an der pass@k-Genauigkeit bei der bewerteten Aufgabe. Durch eine systematische und umfassende Untersuchung einer Reihe kontraintuitiver Behauptungen, unterstützt durch rigorose experimentelle Validierung über verschiedene Modellarchitekturen und Aufgabenbereiche hinweg, zeigen unsere Ergebnisse, dass das standardmäßige RL-Training über verschiedene Einstellungen hinweg konsistent robust bleibt, viele dieser kontraintuitiven Ergebnisse jedoch nur dann auftreten, wenn Modell und Aufgabe bereits eine starke Modell-Aufgaben-Ausrichtung aufweisen. Im Gegensatz dazu scheitern diese Techniken in anspruchsvolleren Regimen, in denen standardmäßige RL-Methoden weiterhin effektiv sind, an der Förderung substanziellen Lernens.
Symmetrie ist einer der grundlegendsten geometrischen Hinweise in der Computer Vision, und ihre Erkennung stellt eine fortwährende Herausforderung dar. Mit den jüngsten Fortschritten in Vision-Language-Modellen, wie z.B. CLIP, untersuchen wir, ob ein vortrainiertes CLIP-Modell die Symmetrieerkennung unterstützen kann, indem es die zusätzlichen Symmetriehinweise nutzt, die in den natürlichen Bildbeschreibungen enthalten sind. Wir stellen CLIPSym vor, das die Bild- und Sprach-Encoder von CLIP sowie einen rotationsäquivarianten Decoder, basierend auf einer Kombination aus Transformer und G-Convolution, nutzt, um Rotations- und Reflexionssymmetrien zu erkennen. Um den Sprach-Encoder von CLIP vollständig zu nutzen, haben wir eine neuartige Prompting-Technik entwickelt, die als Semantic-Aware Prompt Grouping (SAPG) bezeichnet wird. Diese Technik aggregiert eine vielfältige Sammlung von häufigen objektbasierten Prompts, um die semantischen Hinweise für die Symmetrieerkennung besser zu integrieren. Empirisch zeigen wir, dass CLIPSym den aktuellen Stand der Technik auf drei Standarddatensätzen zur Symmetrieerkennung (DENDI, SDRW und LDRS) übertrifft. Abschließend führen wir detaillierte Ablationen durch, die die Vorteile des Vortrainings von CLIP, des vorgeschlagenen äquivarianten Decoders und der SAPG-Technik bestätigen. Der Code ist verfügbar unter https://github.com/timyoung2333/CLIPSym.
Benutzeroberflächen-Agenten (UI-Agenten) versprechen, unzugängliche oder komplexe Benutzeroberflächen für blinde und sehbehinderte (BLV) Nutzer leichter zugänglich zu machen. Allerdings führen aktuelle UI-Agenten typischerweise Aufgaben end-to-end aus, ohne die Nutzer in kritische Entscheidungen einzubeziehen oder sie über wichtige Kontextinformationen zu informieren, wodurch die Handlungsfähigkeit der Nutzer eingeschränkt wird. Beispielsweise bat in unserer Feldstudie ein BLV-Teilnehmer darum, das günstigste verfügbare Sprudelwasser zu kaufen, und der Agent wählte automatisch eines von mehreren gleichpreisigen Produkten aus, ohne alternative Produkte mit unterschiedlichen Geschmacksrichtungen oder besseren Bewertungen zu erwähnen. Um dieses Problem zu lösen, stellen wir Morae vor, einen UI-Agenten, der automatisch Entscheidungspunkte während der Aufgabenausführung identifiziert und anhält, damit Nutzer Entscheidungen treffen können. Morae nutzt große multimodale Modelle, um Benutzeranfragen zusammen mit UI-Code und Screenshots zu interpretieren und die Nutzer um Klärung zu bitten, wenn eine Entscheidung ansteht. In einer Studie mit realen Webaufgaben und BLV-Teilnehmern half Morae den Nutzern, mehr Aufgaben zu erledigen und Optionen auszuwählen, die besser ihren Präferenzen entsprachen, im Vergleich zu Baseline-Agenten, einschließlich OpenAI Operator. Im weiteren Sinne veranschaulicht diese Arbeit einen Mixed-Initiative-Ansatz, bei dem Nutzer von der Automatisierung durch UI-Agenten profitieren, während sie gleichzeitig ihre Präferenzen ausdrücken können.
Die automatisierte Entdeckung physikalischer Gesetze aus Beobachtungsdaten in der realen Welt stellt eine große Herausforderung in der KI dar. Aktuelle Methoden, die sich auf symbolische Regression oder LLMs stützen, sind auf unimodale Daten beschränkt und übersehen die reichhaltigen, visuellen phänomenologischen Darstellungen von Bewegung, die für Physiker unverzichtbar sind. Diese „sensorische Deprivation“ schwächt ihre Fähigkeit, die inhärenten räumlich-zeitlichen Muster innerhalb dynamischer Phänomene zu interpretieren, erheblich. Um diese Lücke zu schließen, schlagen wir VIPER-R1 vor, ein multimodales Modell, das visuelle Induktion für physikbasierte Gleichungslogik durchführt, um fundamentale symbolische Formeln zu entdecken. Es integriert visuelle Wahrnehmung, Trajektoriendaten und symbolische Logik, um den wissenschaftlichen Entdeckungsprozess nachzuahmen. Das Modell wird über einen Lehrplan der Bewegungsstrukturinduktion (MSI) trainiert, wobei überwachtes Fein-Tuning verwendet wird, um kinematische Phasenporträts zu interpretieren und Hypothesen zu konstruieren, die durch eine Kausale Gedankenkette (C-CoT) geleitet werden, gefolgt von einer belohnungsgesteuerten symbolischen Kalibrierung (RGSC), um die Formelstruktur mit Verstärkungslernen zu verfeinern. Während der Inferenz agiert das trainierte VIPER-R1 als Agent: Es stellt zunächst eine symbolische Ansatzfunktion mit hohem Vertrauen auf und ruft dann proaktiv ein externes symbolisches Regressionstool auf, um eine symbolische Restrealignment (SR^2) durchzuführen. Dieser letzte Schritt, analog zur Störungsanalyse eines Physikers, bringt das theoretische Modell mit empirischen Daten in Einklang. Um diese Forschung zu unterstützen, führen wir PhysSymbol ein, einen neuen multimodalen Korpus mit 5.000 Instanzen. Experimente zeigen, dass VIPER-R1 in Bezug auf Genauigkeit und Interpretierbarkeit durchweg state-of-the-art VLM-Baselines übertrifft und eine präzisere Entdeckung physikalischer Gesetze ermöglicht. Projektseite: https://jiaaqiliu.github.io/VIPER-R1/
Echo State Networks (ESNs) sind eine spezielle Art von nicht trainierten Rekurrenten Neuronalen Netzwerken (RNNs) innerhalb des Reservoir Computing (RC)-Rahmens, die für ihr schnelles und effizientes Lernen bekannt sind. Traditionelle ESNs haben jedoch oft Schwierigkeiten bei der Langzeit-Informationsverarbeitung. In diesem Artikel stellen wir eine neuartige Klasse von tiefen, nicht trainierten RNNs vor, die auf temporalen Residualverbindungen basieren und als Deep Residual Echo State Networks (DeepResESNs) bezeichnet werden. Wir zeigen, dass die Nutzung einer Hierarchie von nicht trainierten residualen rekurrenten Schichten die Gedächtniskapazität und die Langzeit-Zeitmodellierung erheblich verbessert. Für die temporalen Residualverbindungen betrachten wir verschiedene orthogonale Konfigurationen, einschließlich zufällig generierter und fest strukturierter Konfigurationen, und untersuchen deren Auswirkungen auf die Netzwerkdynamik. Eine umfassende mathematische Analyse skizziert notwendige und hinreichende Bedingungen, um stabile Dynamiken innerhalb von DeepResESN zu gewährleisten. Unsere Experimente zu einer Vielzahl von Zeitreihenaufgaben demonstrieren die Vorteile des vorgeschlagenen Ansatzes gegenüber traditionellen flachen und tiefen RC-Ansätzen.
Die Nutzung von menschlichen Bewegungsdaten, um Robotern vielseitige Manipulationsfähigkeiten zu vermitteln, hat sich als vielversprechendes Paradigma in der robotischen Manipulation etabliert. Dennoch bleibt die Übersetzung von multisourcigen menschlichen Handbewegungen in umsetzbare Roboteraktionen eine Herausforderung, insbesondere für Roboter, die mit mehrfingrigen geschickten Händen ausgestattet sind, die durch komplexe, hochdimensionale Aktionsräume gekennzeichnet sind. Darüber hinaus haben bestehende Ansätze oft Schwierigkeiten, Strategien zu entwickeln, die sich an verschiedene Umweltbedingungen anpassen können. In diesem Artikel stellen wir HERMES vor, ein Human-to-Robot-Lernframework für mobile bimanuelle geschickte Manipulation. Zunächst formuliert HERMES einen einheitlichen Reinforcement-Learning-Ansatz, der heterogene menschliche Handbewegungen aus mehreren Quellen nahtlos in physikalisch plausible Roboteraktionen umwandeln kann. Anschließend entwickeln wir, um die Sim2Real-Lücke zu verringern, eine end-to-end, tiefenbildbasierte Sim2Real-Transfermethode zur verbesserten Generalisierung auf reale Szenarien. Darüber hinaus erweitern wir das Navigationsgrundlagenmodell, um autonome Operationen in variablen und unstrukturierten Umgebungen zu ermöglichen, mit einem Closed-Loop Perspective-n-Point (PnP)-Lokalisierungsmechanismus, der eine präzise Ausrichtung der visuellen Ziele sicherstellt und so autonome Navigation und geschickte Manipulation effektiv verbindet. Umfangreiche experimentelle Ergebnisse zeigen, dass HERMES durchweg generalisierbare Verhaltensweisen in verschiedenen, realen Szenarien aufweist und erfolgreich zahlreiche komplexe mobile bimanuelle geschickte Manipulationsaufgaben durchführt. Projektseite: https://gemcollector.github.io/HERMES/.
Post-Training-Quantisierung (PTQ) ist entscheidend für die Bereitstellung effizienter Objekterkennungsmodelle wie YOLO auf ressourcenbeschränkten Geräten. Allerdings ist die Auswirkung der reduzierten Präzision auf die Robustheit des Modells gegenüber realen Eingabeverfälschungen wie Rauschen, Unschärfe und Kompressionsartefakten ein erhebliches Anliegen. Diese Arbeit präsentiert eine umfassende empirische Studie, die die Robustheit von YOLO-Modellen (von Nano bis Extra-Large) über mehrere Präzisionsformate hinweg evaluiert: FP32, FP16 (TensorRT), Dynamic UINT8 (ONNX) und Static INT8 (TensorRT). Wir führen eine degradationsbewusste Kalibrierungsstrategie für Static INT8 PTQ ein und evaluieren diese, bei der der TensorRT-Kalibrierungsprozess einer Mischung aus sauberen und synthetisch verfälschten Bildern ausgesetzt wird. Die Modelle wurden auf dem COCO-Datensatz unter sieben verschiedenen Verfälschungsbedingungen (einschließlich verschiedener Arten und Stufen von Rauschen, Unschärfe, geringem Kontrast und JPEG-Kompression) sowie einem gemischten Verfälschungsszenario getestet. Die Ergebnisse zeigen, dass Static INT8 TensorRT-Engines zwar erhebliche Geschwindigkeitssteigerungen (~1,5-3,3x) mit einem moderaten Genauigkeitsverlust (~3-7% mAP50-95) auf sauberen Daten bieten, die vorgeschlagene degradationsbewusste Kalibrierung jedoch keine konsistenten, breiten Verbesserungen der Robustheit gegenüber der Standard-Kalibrierung mit sauberen Daten über die meisten Modelle und Verfälschungen hinweg erzielte. Eine bemerkenswerte Ausnahme wurde bei größeren Modellskalen unter spezifischen Rauschbedingungen beobachtet, was darauf hindeutet, dass die Modellkapazität die Wirksamkeit dieses Kalibrierungsansatzes beeinflussen könnte. Diese Erkenntnisse unterstreichen die Herausforderungen bei der Verbesserung der PTQ-Robustheit und liefern Einblicke für die Bereitstellung quantisierter Detektoren in unkontrollierten Umgebungen. Der gesamte Code und die Auswertungstabellen sind unter https://github.com/AllanK24/QRID verfügbar.
Jedes Jahr erhalten die meisten Bildungseinrichtungen eine enorme Menge an Textfeedback von Studierenden zu Kursen, Lehre und dem Gesamterlebnis. Die Umwandlung dieses Rohfeedbacks in nützliche Erkenntnisse ist jedoch keineswegs einfach. Es war eine langjährige Herausforderung, automatische Meinungsmining-Lösungen für solche Bildungsbewertungstextdaten zu nutzen, da die Inhalte komplex sind und die Berichterstattung nur geringe Granularität erfordert. Die Aspekt-basierte Sentiment-Analyse (ABSA) bietet eine vielversprechende Lösung mit ihren umfangreichen, unter-satzbasierten Meinungsmining-Fähigkeiten. Allerdings konzentrieren sich bestehende ABSA-Forschungen und -Ressourcen sehr stark auf den kommerziellen Bereich. Im Bildungsbereich sind sie aufgrund begrenzter öffentlicher Datensätze und strengem Datenschutz rar und schwer zu entwickeln. Ein hochwertiger, annotierter Datensatz wird dringend benötigt, um die Forschung in diesem unterversorgten Bereich voranzutreiben. In dieser Arbeit präsentieren wir EduRABSA (Education Review ABSA), den ersten öffentlichen, annotierten ABSA-Bildungsbewertungsdatensatz, der drei Bewertungstypen (Kurs, Lehrpersonal, Universität) in englischer Sprache abdeckt und alle Hauptaufgaben der ABSA, einschließlich der wenig erforschten impliziten Aspekte und impliziten Meinungsextraktion, umfasst. Wir stellen auch ASQE-DPT (Data Processing Tool) vor, ein offline, leichtgewichtiges, installationsfreies manuelles Datenannotationswerkzeug, das beschriftete Datensätze für umfassende ABSA-Aufgaben aus einer Einzelaufgaben-Annotation generiert. Gemeinsam tragen diese Ressourcen zur ABSA-Community und zum Bildungsbereich bei, indem sie die Datensatzbarriere beseitigen, die Forschungstransparenz und -reproduzierbarkeit unterstützen und die Erstellung und Weitergabe weiterer Ressourcen ermöglichen. Der Datensatz, das Annotationswerkzeug sowie Skripte und Statistiken zur Datensatzverarbeitung und -stichprobenziehung sind unter https://github.com/yhua219/edurabsa_dataset_and_annotation_tool verfügbar.