papers.description
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, kämpfen jedoch weiterhin mit komplexem mathematischem Denken. Bisherige Forschung konzentriert sich hauptsächlich auf die Konstruktion von Datensätzen und die Optimierung von Methoden, wobei zwei kritische Aspekte oft übersehen werden: umfassendes wissensbasiertes Design und modellzentrierte Datenraummodellierung. In diesem Artikel stellen wir We-Math 2.0 vor, ein einheitliches System, das ein strukturiertes mathematisches Wissenssystem, modellzentrierte Datenraummodellierung und ein auf Reinforcement Learning (RL) basierendes Trainingsparadigma integriert, um die mathematischen Denkfähigkeiten von MLLMs umfassend zu verbessern. Die wesentlichen Beiträge von We-Math 2.0 sind vierfach: (1) MathBook-Wissenssystem: Wir konstruieren ein fünfstufiges hierarchisches System, das 491 Wissenspunkte und 1.819 grundlegende Prinzipien umfasst. (2) MathBook-Standard & Pro: Wir entwickeln MathBook-Standard, einen Datensatz, der durch duale Erweiterung breite konzeptionelle Abdeckung und Flexibilität sicherstellt. Zusätzlich definieren wir einen dreidimensionalen Schwierigkeitsraum und generieren 7 progressive Varianten pro Problem, um MathBook-Pro, einen anspruchsvollen Datensatz für robustes Training, zu erstellen. (3) MathBook-RL: Wir schlagen ein zweistufiges RL-Framework vor, das besteht aus: (i) Cold-Start Fine-Tuning, das das Modell mit wissensorientiertem Chain-of-Thought-Denken abstimmt; und (ii) Progressive Alignment RL, das durchschnittliche Belohnungslernen und dynamische Datenplanung nutzt, um eine progressive Abstimmung über Schwierigkeitsstufen hinweg zu erreichen. (4) MathBookEval: Wir führen einen umfassenden Benchmark ein, der alle 491 Wissenspunkte mit diversen Verteilungen von Denkschritten abdeckt. Experimentelle Ergebnisse zeigen, dass MathBook-RL auf vier weit verbreiteten Benchmarks wettbewerbsfähig mit bestehenden Baselines abschneidet und auf MathBookEval starke Ergebnisse erzielt, was auf vielversprechende Generalisierung im mathematischen Denken hindeutet.
Vorherrschende autoregressive (AR) Modelle für die Text-zu-Bild-Generierung setzen entweder auf rechenintensive Diffusionsmodelle zur Verarbeitung kontinuierlicher Bild-Tokens oder verwenden Vektorquantisierung (VQ), um diskrete Tokens mit Quantisierungsverlust zu erhalten. In diesem Artikel treiben wir das autoregressive Paradigma mit NextStep-1 voran, einem 14B autoregressiven Modell, das mit einem 157M Flow-Matching-Kopf kombiniert ist und auf diskreten Text-Tokens und kontinuierlichen Bild-Tokens mit Next-Token-Vorhersagezielen trainiert wird. NextStep-1 erreicht state-of-the-art Leistung für autoregressive Modelle in Text-zu-Bild-Generierungsaufgaben und zeigt starke Fähigkeiten in der hochauflösenden Bildsynthese. Darüber hinaus demonstriert unsere Methode eine beeindruckende Leistung in der Bildbearbeitung, was die Stärke und Vielseitigkeit unseres einheitlichen Ansatzes unterstreicht. Um offene Forschung zu fördern, werden wir unseren Code und unsere Modelle der Community zur Verfügung stellen.
Wir stellen PRELUDE vor, einen Benchmark zur Bewertung des Verständnisses langer Kontexte durch die Aufgabe, zu bestimmen, ob die Vorgeschichte einer Figur mit der kanonischen Erzählung des ursprünglichen Buches konsistent ist. Unsere Aufgabe stellt eine stärkere Anforderung an globales Verständnis und tiefgreifendes Schlussfolgern als bestehende Benchmarks – da die Vorgeschichten nicht Teil der ursprünglichen Handlung sind, erfordert die Bewertung ihrer Plausibilität typischerweise die Suche und Integration von Informationen, die nur indirekt miteinander verbunden sind. Empirisch erfordern 88 % der Fälle Belege aus mehreren Teilen der Erzählung. Experimentelle Ergebnisse unterstreichen die Herausforderung unserer Aufgabe: In-Context-Lernen, RAG und domänenspezifisches Training mit state-of-the-art LLMs sowie kommerzielle DeepResearch-Dienste liegen um mehr als 15 % hinter menschlicher Leistung zurück. Eine weitere menschliche Studie zeigt, dass Modelle oft korrekte Antworten mit fehlerhafter Argumentation liefern, was zu einer Lücke von über 30 % in der Argumentationsgenauigkeit im Vergleich zu Menschen führt. Diese Ergebnisse verdeutlichen den erheblichen Verbesserungsbedarf beim Verständnis und der Argumentation in langen Kontexten.
Wir präsentieren UI-Venus, einen nativen UI-Agenten, der ausschließlich Screenshots als Eingabe basierend auf einem multimodalen Large Language Model verarbeitet. UI-Venus erreicht State-of-the-Art (SOTA) Leistung sowohl bei UI-Grounding- als auch bei Navigationsaufgaben, wobei nur mehrere hunderttausend hochwertige Trainingsdaten durch Reinforcement Fine-Tuning (RFT) auf Basis von Qwen2.5-VL verwendet werden. Konkret erzielen die 7B- und 72B-Varianten von UI-Venus 94,1 % / 50,8 % bzw. 95,3 % / 61,9 % auf den Standard-Grounding-Benchmarks, d.h. Screenspot-V2 / Pro, und übertreffen damit die bisherigen SOTA-Baselines, einschließlich des Open-Source-Modells GTA1 und des Closed-Source-Modells UI-TARS-1.5. Um die Zusammenfassungs- und Planungsfähigkeit von UI-Venus zu demonstrieren, evaluieren wir es auch auf AndroidWorld, einer Online-UI-Navigationsarena, auf der unsere 7B- und 72B-Varianten Erfolgsraten von 49,1 % bzw. 65,9 % erreichen und damit bestehende Modelle übertreffen. Um dies zu erreichen, führen wir sorgfältig gestaltete Belohnungsfunktionen für sowohl UI-Grounding- als auch Navigationsaufgaben sowie entsprechende effiziente Datenbereinigungsstrategien ein. Um die Navigationsleistung weiter zu steigern, schlagen wir Self-Evolving Trajectory History Alignment & Sparse Action Enhancement vor, das historische Argumentationsspuren verfeinert und die Verteilung von spärlichen, aber kritischen Aktionen ausgleicht, was zu kohärenterer Planung und besserer Generalisierung bei komplexen UI-Aufgaben führt. Unsere Beiträge umfassen die Veröffentlichung von SOTA Open-Source-UI-Agenten, umfassende Datenbereinigungsprotokolle und ein neuartiges, selbstentwickelndes Framework zur Verbesserung der Navigationsleistung, das weitere Forschung und Entwicklung in der Community fördert. Der Code ist verfügbar unter https://github.com/antgroup/UI-Venus.
Während Multimodale Große Sprachmodelle (MLLMs) ein enormes Potenzial für die Erreichung wirklich menschenähnlicher Interaktionen zeigen, wird der Fortschritt durch das Fehlen fein abgestimmter Evaluierungsrahmen für menschenzentrierte Szenarien behindert, die sowohl das Verständnis komplexer menschlicher Absichten als auch die Bereitstellung empathischer, kontextbewusster Antworten umfassen. Hier stellen wir HumanSense vor, einen umfassenden Benchmark, der darauf abzielt, die menschenzentrierten Wahrnehmungs- und Interaktionsfähigkeiten von MLLMs zu bewerten, mit einem besonderen Fokus auf das tiefe Verständnis erweiterter multimodaler Kontexte und die Formulierung rationaler Rückmeldungen. Unsere Evaluation zeigt, dass führende MLLMs noch erheblichen Verbesserungsbedarf haben, insbesondere bei fortgeschrittenen interaktionsorientierten Aufgaben. Die Ergänzung visueller Eingaben durch Audio- und Textinformationen führt zu erheblichen Verbesserungen, und Omni-modale Modelle zeigen Vorteile bei diesen Aufgaben. Darüber hinaus argumentieren wir, dass angemessene Rückmeldungen aus einer kontextuellen Analyse der Bedürfnisse und Emotionen des Gesprächspartners resultieren, wobei die Fähigkeit zum logischen Denken der Schlüssel zur Entfaltung dieser Fähigkeit ist. Dementsprechend setzen wir ein mehrstufiges, modalitätsprogressives Reinforcement Learning ein, um die Denkfähigkeiten eines Omni-Modells zu verbessern, was zu erheblichen Gewinnen bei den Evaluierungsergebnissen führt. Zusätzlich beobachten wir, dass erfolgreiche Denkprozesse hochgradig konsistente Denkmuster aufweisen. Durch die Gestaltung entsprechender Prompts verbessern wir auch die Leistung von Nicht-Denkmodellen auf trainingsfreie Weise. Projektseite: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Jüngste Fortschritte im Bereich des maschinellen Lernens haben ein wachsendes Interesse an der automatisierten Bewertung von Dolmetschqualität geweckt. Dennoch leidet die bestehende Forschung unter einer unzureichenden Untersuchung der Sprachverwendungsqualität, unbefriedigender Modellierungseffektivität aufgrund von Datenknappheit und -ungleichgewicht sowie einem Mangel an Bemühungen, Modellvorhersagen zu erklären. Um diese Lücken zu schließen, schlagen wir ein mehrdimensionales Modellierungsframework vor, das Feature-Engineering, Datenaugmentierung und erklärbares maschinelles Lernen integriert. Dieser Ansatz priorisiert Erklärbarkeit gegenüber „Black-Box“-Vorhersagen, indem ausschließlich konstruktrelevante, transparente Merkmale verwendet und eine Shapley-Wert (SHAP)-Analyse durchgeführt wird. Unsere Ergebnisse zeigen eine starke Vorhersageleistung auf einem neuartigen Englisch-Chinesisch-Konsekutivdolmetsch-Datensatz, wobei BLEURT- und CometKiwi-Scores als die stärksten prädiktiven Merkmale für die Treue, pausenbezogene Merkmale für die Flüssigkeit und chinaspezifische phraseologische Diversitätsmetriken für die Sprachverwendung identifiziert wurden. Insgesamt präsentieren wir durch besondere Betonung der Erklärbarkeit eine skalierbare, zuverlässige und transparente Alternative zur traditionellen menschlichen Bewertung, die die Bereitstellung detaillierter diagnostischer Rückmeldungen für Lernende erleichtert und Vorteile des selbstregulierten Lernens unterstützt, die durch automatisierte Bewertungen allein nicht geboten werden.