papers.description
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, kämpfen jedoch weiterhin mit komplexem mathematischem Denken. Bisherige Forschung konzentriert sich hauptsächlich auf die Konstruktion von Datensätzen und die Optimierung von Methoden, wobei zwei kritische Aspekte oft übersehen werden: umfassendes wissensbasiertes Design und modellzentrierte Datenraummodellierung. In diesem Artikel stellen wir We-Math 2.0 vor, ein einheitliches System, das ein strukturiertes mathematisches Wissenssystem, modellzentrierte Datenraummodellierung und ein auf Reinforcement Learning (RL) basierendes Trainingsparadigma integriert, um die mathematischen Denkfähigkeiten von MLLMs umfassend zu verbessern. Die wesentlichen Beiträge von We-Math 2.0 sind vierfach: (1) MathBook-Wissenssystem: Wir konstruieren ein fünfstufiges hierarchisches System, das 491 Wissenspunkte und 1.819 grundlegende Prinzipien umfasst. (2) MathBook-Standard & Pro: Wir entwickeln MathBook-Standard, einen Datensatz, der durch duale Erweiterung breite konzeptionelle Abdeckung und Flexibilität sicherstellt. Zusätzlich definieren wir einen dreidimensionalen Schwierigkeitsraum und generieren 7 progressive Varianten pro Problem, um MathBook-Pro, einen anspruchsvollen Datensatz für robustes Training, zu erstellen. (3) MathBook-RL: Wir schlagen ein zweistufiges RL-Framework vor, das besteht aus: (i) Cold-Start Fine-Tuning, das das Modell mit wissensorientiertem Chain-of-Thought-Denken abstimmt; und (ii) Progressive Alignment RL, das durchschnittliche Belohnungslernen und dynamische Datenplanung nutzt, um eine progressive Abstimmung über Schwierigkeitsstufen hinweg zu erreichen. (4) MathBookEval: Wir führen einen umfassenden Benchmark ein, der alle 491 Wissenspunkte mit diversen Verteilungen von Denkschritten abdeckt. Experimentelle Ergebnisse zeigen, dass MathBook-RL auf vier weit verbreiteten Benchmarks wettbewerbsfähig mit bestehenden Baselines abschneidet und auf MathBookEval starke Ergebnisse erzielt, was auf vielversprechende Generalisierung im mathematischen Denken hindeutet.
Vorherrschende autoregressive (AR) Modelle für die Text-zu-Bild-Generierung setzen entweder auf rechenintensive Diffusionsmodelle zur Verarbeitung kontinuierlicher Bild-Tokens oder verwenden Vektorquantisierung (VQ), um diskrete Tokens mit Quantisierungsverlust zu erhalten. In diesem Artikel treiben wir das autoregressive Paradigma mit NextStep-1 voran, einem 14B autoregressiven Modell, das mit einem 157M Flow-Matching-Kopf kombiniert ist und auf diskreten Text-Tokens und kontinuierlichen Bild-Tokens mit Next-Token-Vorhersagezielen trainiert wird. NextStep-1 erreicht state-of-the-art Leistung für autoregressive Modelle in Text-zu-Bild-Generierungsaufgaben und zeigt starke Fähigkeiten in der hochauflösenden Bildsynthese. Darüber hinaus demonstriert unsere Methode eine beeindruckende Leistung in der Bildbearbeitung, was die Stärke und Vielseitigkeit unseres einheitlichen Ansatzes unterstreicht. Um offene Forschung zu fördern, werden wir unseren Code und unsere Modelle der Community zur Verfügung stellen.
Wir stellen PRELUDE vor, einen Benchmark zur Bewertung des Verständnisses langer Kontexte durch die Aufgabe, zu bestimmen, ob die Vorgeschichte einer Figur mit der kanonischen Erzählung des ursprünglichen Buches konsistent ist. Unsere Aufgabe stellt eine stärkere Anforderung an globales Verständnis und tiefgreifendes Schlussfolgern als bestehende Benchmarks – da die Vorgeschichten nicht Teil der ursprünglichen Handlung sind, erfordert die Bewertung ihrer Plausibilität typischerweise die Suche und Integration von Informationen, die nur indirekt miteinander verbunden sind. Empirisch erfordern 88 % der Fälle Belege aus mehreren Teilen der Erzählung. Experimentelle Ergebnisse unterstreichen die Herausforderung unserer Aufgabe: In-Context-Lernen, RAG und domänenspezifisches Training mit state-of-the-art LLMs sowie kommerzielle DeepResearch-Dienste liegen um mehr als 15 % hinter menschlicher Leistung zurück. Eine weitere menschliche Studie zeigt, dass Modelle oft korrekte Antworten mit fehlerhafter Argumentation liefern, was zu einer Lücke von über 30 % in der Argumentationsgenauigkeit im Vergleich zu Menschen führt. Diese Ergebnisse verdeutlichen den erheblichen Verbesserungsbedarf beim Verständnis und der Argumentation in langen Kontexten.
Die traditionelle Produktion von Cartoons und Anime umfasst die Phasen Keyframing, Inbetweening und Kolorierung, die einen hohen manuellen Aufwand erfordern. Trotz jüngster Fortschritte in der KI behandeln bestehende Methoden diese Phasen oft separat, was zu Fehlerakkumulation und Artefakten führt. Beispielsweise haben Inbetweening-Ansätze Schwierigkeiten mit großen Bewegungen, während Kolorierungsmethoden dichte Skizzen pro Frame benötigen. Um dies zu adressieren, stellen wir ToonComposer vor, ein generatives Modell, das Inbetweening und Kolorierung in einer einzigen Post-Keyframing-Phase vereint. ToonComposer verwendet einen Mechanismus zur spärlichen Skizzeninjektion, um präzise Kontrolle durch Keyframe-Skizzen zu ermöglichen. Zusätzlich nutzt es eine Cartoon-Adaptionsmethode mit dem räumlichen Low-Rank-Adapter, um ein modernes Video-Foundation-Modell an den Cartoon-Bereich anzupassen, während dessen zeitliche Priorität erhalten bleibt. Mit nur einer einzigen Skizze und einem kolorierten Referenzrahmen zeigt ToonComposer hervorragende Ergebnisse bei spärlichen Eingaben, unterstützt aber auch mehrere Skizzen an beliebigen zeitlichen Positionen für präzisere Bewegungssteuerung. Diese duale Fähigkeit reduziert den manuellen Arbeitsaufwand und verbessert die Flexibilität, was Künstler in realen Szenarien unterstützt. Um unser Modell zu evaluieren, haben wir PKBench entwickelt, einen Benchmark mit handgezeichneten Skizzen, die reale Anwendungsfälle simulieren. Unsere Bewertung zeigt, dass ToonComposer bestehende Methoden in Bezug auf visuelle Qualität, Bewegungs-Konsistenz und Produktionseffizienz übertrifft und eine überlegene und flexiblere Lösung für die KI-unterstützte Cartoon-Produktion bietet.
Wir präsentieren UI-Venus, einen nativen UI-Agenten, der ausschließlich Screenshots als Eingabe basierend auf einem multimodalen Large Language Model verarbeitet. UI-Venus erreicht State-of-the-Art (SOTA) Leistung sowohl bei UI-Grounding- als auch bei Navigationsaufgaben, wobei nur mehrere hunderttausend hochwertige Trainingsdaten durch Reinforcement Fine-Tuning (RFT) auf Basis von Qwen2.5-VL verwendet werden. Konkret erzielen die 7B- und 72B-Varianten von UI-Venus 94,1 % / 50,8 % bzw. 95,3 % / 61,9 % auf den Standard-Grounding-Benchmarks, d.h. Screenspot-V2 / Pro, und übertreffen damit die bisherigen SOTA-Baselines, einschließlich des Open-Source-Modells GTA1 und des Closed-Source-Modells UI-TARS-1.5. Um die Zusammenfassungs- und Planungsfähigkeit von UI-Venus zu demonstrieren, evaluieren wir es auch auf AndroidWorld, einer Online-UI-Navigationsarena, auf der unsere 7B- und 72B-Varianten Erfolgsraten von 49,1 % bzw. 65,9 % erreichen und damit bestehende Modelle übertreffen. Um dies zu erreichen, führen wir sorgfältig gestaltete Belohnungsfunktionen für sowohl UI-Grounding- als auch Navigationsaufgaben sowie entsprechende effiziente Datenbereinigungsstrategien ein. Um die Navigationsleistung weiter zu steigern, schlagen wir Self-Evolving Trajectory History Alignment & Sparse Action Enhancement vor, das historische Argumentationsspuren verfeinert und die Verteilung von spärlichen, aber kritischen Aktionen ausgleicht, was zu kohärenterer Planung und besserer Generalisierung bei komplexen UI-Aufgaben führt. Unsere Beiträge umfassen die Veröffentlichung von SOTA Open-Source-UI-Agenten, umfassende Datenbereinigungsprotokolle und ein neuartiges, selbstentwickelndes Framework zur Verbesserung der Navigationsleistung, das weitere Forschung und Entwicklung in der Community fördert. Der Code ist verfügbar unter https://github.com/antgroup/UI-Venus.
Diffusionssprachmodelle (DLMs) etablieren sich zunehmend als leistungsstarke und vielversprechende Alternative zum dominanten autoregressiven (AR) Paradigma. Durch die parallele Erzeugung von Tokens mittels eines iterativen Entrauschungsprozesses bieten DLMs inhärente Vorteile bei der Reduzierung der Inferenzlatenz und der Erfassung bidirektionaler Kontexte, wodurch eine fein abgestimmte Steuerung des Generierungsprozesses ermöglicht wird. Während sie eine mehrfache Beschleunigung erreichen, haben jüngste Fortschritte es DLMs ermöglicht, eine mit autoregressiven Modellen vergleichbare Leistung zu erzielen, was sie zu einer überzeugenden Wahl für verschiedene Aufgaben der natürlichen Sprachverarbeitung macht. In dieser Übersichtsarbeit bieten wir einen ganzheitlichen Überblick über die aktuelle DLM-Landschaft. Wir verfolgen ihre Entwicklung und Beziehung zu anderen Paradigmen, wie autoregressiven und maskierten Sprachmodellen, und behandeln sowohl grundlegende Prinzipien als auch state-of-the-art Modelle. Unsere Arbeit bietet eine aktuelle, umfassende Taxonomie und eine detaillierte Analyse der derzeitigen Techniken, von Pre-Training-Strategien bis hin zu fortgeschrittenen Post-Training-Methoden. Ein weiterer Beitrag dieser Übersichtsarbeit ist eine gründliche Untersuchung von DLM-Inferenzstrategien und -Optimierungen, einschließlich Verbesserungen in der Dekodierungsparallelität, Caching-Mechanismen und der Generierungsqualität. Wir beleuchten auch die neuesten Ansätze für multimodale Erweiterungen von DLMs und skizzieren ihre Anwendungen in verschiedenen praktischen Szenarien. Darüber hinaus behandelt unsere Diskussion die Grenzen und Herausforderungen von DLMs, einschließlich Effizienz, Handhabung langer Sequenzen und Infrastrukturanforderungen, und zeigt zukünftige Forschungsrichtungen auf, um den Fortschritt in diesem sich schnell entwickelnden Bereich zu fördern. Das Projekt-GitHub ist verfügbar unter https://github.com/VILA-Lab/Awesome-DLMs.
Moderne interaktive Anwendungen erfordern zunehmend dynamische 3D-Inhalte, doch die Umwandlung statischer 3D-Modelle in animierte Assets stellt einen erheblichen Engpass in den Content-Erstellungspipelines dar. Während jüngste Fortschritte in der generativen KI die Erstellung statischer 3D-Modelle revolutioniert haben, sind Rigging und Animation nach wie vor stark auf Experteneingriffe angewiesen. Wir präsentieren Puppeteer, ein umfassendes Framework, das sowohl automatisches Rigging als auch Animation für diverse 3D-Objekte adressiert. Unser System sagt zunächst plausible Skelettstrukturen über einen autoregressiven Transformer voraus, der eine gelenkbasierte Tokenisierungsstrategie für eine kompakte Darstellung sowie eine hierarchische Ordnungsmethodik mit stochastischer Störung einführt, die bidirektionale Lernfähigkeiten verbessert. Anschließend leitet es Skinning-Gewichte über eine aufmerksamkeitsbasierte Architektur ab, die topologiebewusste Gelenkaufmerksamkeit integriert und explizit inter-gelenkliche Beziehungen basierend auf Skelett-Graph-Distanzen kodiert. Schließlich ergänzen wir diese Rigging-Fortschritte durch eine differenzierbare, optimierungsbasierte Animationspipeline, die stabile, hochwertige Animationen erzeugt und dabei recheneffizienter ist als bestehende Ansätze. Umfangreiche Evaluierungen über mehrere Benchmarks hinweg zeigen, dass unsere Methode sowohl in der Genauigkeit der Skelettvorhersage als auch in der Qualität des Skinnings state-of-the-art-Techniken deutlich übertrifft. Das System verarbeitet robust diverse 3D-Inhalte, von professionell gestalteten Spiel-Assets bis hin zu KI-generierten Formen, und erzeugt zeitlich kohärente Animationen, die die in bestehenden Methoden häufig auftretenden Ruckelprobleme beseitigen.
Wir stellen STream3R vor, einen neuartigen Ansatz zur 3D-Rekonstruktion, der die Vorhersage von Punktkarten als ein reines Decoder-Transformer-Problem neu formuliert. Bisherige state-of-the-art Methoden für Multi-View-Rekonstruktion sind entweder von teurer globaler Optimierung abhängig oder verlassen sich auf vereinfachte Speichermechanismen, die schlecht mit der Sequenzlänge skalieren. Im Gegensatz dazu führt STream3R ein Streaming-Framework ein, das Bildsequenzen effizient unter Verwendung von kausaler Aufmerksamkeit verarbeitet, inspiriert durch Fortschritte im modernen Sprachmodellierung. Durch das Lernen geometrischer Priors aus groß angelegten 3D-Datensätzen, generalisiert STream3R gut auf diverse und herausfordernde Szenarien, einschließlich dynamischer Szenen, bei denen traditionelle Methoden oft versagen. Umfangreiche Experimente zeigen, dass unsere Methode durchweg frühere Arbeiten sowohl bei statischen als auch dynamischen Szenen-Benchmarks übertrifft. Darüber hinaus ist STream3R von Natur aus kompatibel mit LLM-ähnlicher Trainingsinfrastruktur, was effizientes groß angelegtes Vortraining und Feinabstimmung für verschiedene nachgelagerte 3D-Aufgaben ermöglicht. Unsere Ergebnisse unterstreichen das Potenzial kausaler Transformer-Modelle für die Online-3D-Wahrnehmung und ebnen den Weg für Echtzeit-3D-Verständnis in Streaming-Umgebungen. Weitere Details finden Sie auf unserer Projektseite: https://nirvanalan.github.io/projects/stream3r.
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR), das typischerweise Pass@1 als Belohnung verwendet, stand vor der Herausforderung, Exploration und Exploitation auszubalancieren, was dazu führte, dass die Strategien konservative Aktionen bevorzugten und in einem lokalen Optimum konvergierten. Daher ist die Identifizierung einer geeigneten Belohnungsmetrik von entscheidender Bedeutung. In Bezug auf frühere Arbeiten wurde zwar Pass@k für die Bewertung verwendet, doch seine Verbindung zur Explorationsfähigkeit von LLMs in RLVR wurde weitgehend übersehen. Um dies zu untersuchen, verwenden wir zunächst Pass@k als Belohnung, um das Strategiemodell zu trainieren (d.h. Pass@k-Training), und beobachten die Verbesserung seiner Explorationsfähigkeit. Anschließend leiten wir eine analytische Lösung für den Vorteil des Pass@k-Trainings ab, was zu einem effizienten und effektiven Prozess führt. Aufbauend darauf zeigt unsere Analyse, dass Exploration und Exploitation nicht grundsätzlich widersprüchliche Ziele sind, sondern sich gegenseitig verstärken können. Darüber hinaus beinhaltet das Pass@k-Training mit analytischer Ableitung im Wesentlichen die direkte Gestaltung der Vorteilsfunktion. Inspiriert davon untersuchen wir vorläufig die Gestaltung des Vorteils für RLVR, zeigen vielversprechende Ergebnisse und heben eine potenzielle zukünftige Richtung hervor.
Während Multimodale Große Sprachmodelle (MLLMs) ein enormes Potenzial für die Erreichung wirklich menschenähnlicher Interaktionen zeigen, wird der Fortschritt durch das Fehlen fein abgestimmter Evaluierungsrahmen für menschenzentrierte Szenarien behindert, die sowohl das Verständnis komplexer menschlicher Absichten als auch die Bereitstellung empathischer, kontextbewusster Antworten umfassen. Hier stellen wir HumanSense vor, einen umfassenden Benchmark, der darauf abzielt, die menschenzentrierten Wahrnehmungs- und Interaktionsfähigkeiten von MLLMs zu bewerten, mit einem besonderen Fokus auf das tiefe Verständnis erweiterter multimodaler Kontexte und die Formulierung rationaler Rückmeldungen. Unsere Evaluation zeigt, dass führende MLLMs noch erheblichen Verbesserungsbedarf haben, insbesondere bei fortgeschrittenen interaktionsorientierten Aufgaben. Die Ergänzung visueller Eingaben durch Audio- und Textinformationen führt zu erheblichen Verbesserungen, und Omni-modale Modelle zeigen Vorteile bei diesen Aufgaben. Darüber hinaus argumentieren wir, dass angemessene Rückmeldungen aus einer kontextuellen Analyse der Bedürfnisse und Emotionen des Gesprächspartners resultieren, wobei die Fähigkeit zum logischen Denken der Schlüssel zur Entfaltung dieser Fähigkeit ist. Dementsprechend setzen wir ein mehrstufiges, modalitätsprogressives Reinforcement Learning ein, um die Denkfähigkeiten eines Omni-Modells zu verbessern, was zu erheblichen Gewinnen bei den Evaluierungsergebnissen führt. Zusätzlich beobachten wir, dass erfolgreiche Denkprozesse hochgradig konsistente Denkmuster aufweisen. Durch die Gestaltung entsprechender Prompts verbessern wir auch die Leistung von Nicht-Denkmodellen auf trainingsfreie Weise. Projektseite: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Frühere Arbeiten haben die Robustheit visueller Encoder gegenüber Bildtransformationen und -verfälschungen analysiert, insbesondere in Fällen, in denen solche Veränderungen während des Trainings nicht vorkommen. Wenn dies geschieht, führen sie zu einer Form von Distributionsverschiebung zur Testzeit, was oft zu einer Leistungsverschlechterung führt. Der Hauptfokus lag dabei auf schwerwiegenden Verfälschungen, die, wenn sie aggressiv angewendet werden, nützliche Signale verzerren, die für präzise semantische Vorhersagen notwendig sind. Wir nehmen eine andere Perspektive ein, indem wir Parameter des Bildaufnahmeprozesses und Transformationen analysieren, die subtil oder sogar für das menschliche Auge nicht wahrnehmbar sein können. Wir stellen fest, dass solche Parameter systematisch in den gelernten visuellen Repräsentationen kodiert sind und leicht wiederhergestellt werden können. Noch bemerkenswerter ist, dass ihre Anwesenheit einen tiefgreifenden Einfluss, entweder positiv oder negativ, auf semantische Vorhersagen haben kann. Dieser Effekt hängt davon ab, ob es eine starke Korrelation oder Anti-Korrelation zwischen semantischen Labels und diesen aufnahme- oder verarbeitungsbasierten Labels gibt. Unser Code und unsere Daten sind verfügbar unter: https://github.com/ryan-caesar-ramos/visual-encoder-traces
Jüngste Fortschritte im Bereich des maschinellen Lernens haben ein wachsendes Interesse an der automatisierten Bewertung von Dolmetschqualität geweckt. Dennoch leidet die bestehende Forschung unter einer unzureichenden Untersuchung der Sprachverwendungsqualität, unbefriedigender Modellierungseffektivität aufgrund von Datenknappheit und -ungleichgewicht sowie einem Mangel an Bemühungen, Modellvorhersagen zu erklären. Um diese Lücken zu schließen, schlagen wir ein mehrdimensionales Modellierungsframework vor, das Feature-Engineering, Datenaugmentierung und erklärbares maschinelles Lernen integriert. Dieser Ansatz priorisiert Erklärbarkeit gegenüber „Black-Box“-Vorhersagen, indem ausschließlich konstruktrelevante, transparente Merkmale verwendet und eine Shapley-Wert (SHAP)-Analyse durchgeführt wird. Unsere Ergebnisse zeigen eine starke Vorhersageleistung auf einem neuartigen Englisch-Chinesisch-Konsekutivdolmetsch-Datensatz, wobei BLEURT- und CometKiwi-Scores als die stärksten prädiktiven Merkmale für die Treue, pausenbezogene Merkmale für die Flüssigkeit und chinaspezifische phraseologische Diversitätsmetriken für die Sprachverwendung identifiziert wurden. Insgesamt präsentieren wir durch besondere Betonung der Erklärbarkeit eine skalierbare, zuverlässige und transparente Alternative zur traditionellen menschlichen Bewertung, die die Bereitstellung detaillierter diagnostischer Rückmeldungen für Lernende erleichtert und Vorteile des selbstregulierten Lernens unterstützt, die durch automatisierte Bewertungen allein nicht geboten werden.
In der Erforschung vertrauenswürdiger Natural Language Processing (NLP) haben sich mehrere wichtige Forschungsgebiete herausgebildet, darunter die Bereiche Erklärbarkeit und Privatsphäre. Während das Forschungsinteresse an sowohl erklärbarer als auch datenschutzbewahrender NLP in den letzten Jahren erheblich gestiegen ist, besteht nach wie vor ein Mangel an Untersuchungen an der Schnittstelle dieser beiden Bereiche. Dies hinterlässt eine erhebliche Lücke im Verständnis darüber, ob sowohl Erklärbarkeit als auch Privatsphäre erreicht werden können oder ob sie sich gegenseitig ausschließen. In dieser Arbeit führen wir eine empirische Untersuchung des Privacy-Explainability-Trade-offs im Kontext von NLP durch, geleitet von den weit verbreiteten übergreifenden Methoden der Differential Privacy (DP) und der Post-hoc-Erklärbarkeit. Unsere Ergebnisse bieten einen Einblick in das komplexe Verhältnis zwischen Privatsphäre und Erklärbarkeit, das durch eine Reihe von Faktoren geprägt wird, darunter die Art der nachgelagerten Aufgabe sowie die Wahl der Textprivatisierungs- und Erklärbarkeitsmethode. Dabei heben wir das Potenzial für ein gleichzeitiges Bestehen von Privatsphäre und Erklärbarkeit hervor und fassen unsere Erkenntnisse in einer Sammlung praktischer Empfehlungen für zukünftige Arbeiten an dieser wichtigen Schnittstelle zusammen.