papers.description
In den letzten Jahren sind eine Vielzahl von Open-Source-Foundation-Modellen entstanden, die bemerkenswerte Fortschritte in einigen weit beachteten Bereichen erzielt haben, wobei ihre Leistung der von Closed-Source-Modellen sehr nahe kommt. In hochwertigen, aber anspruchsvolleren wissenschaftlichen Fachgebieten verlassen sich die Bereiche jedoch entweder noch immer auf Expertenmodelle, oder die Fortschritte allgemeiner Foundation-Modelle hinken im Vergleich zu denen in populären Gebieten deutlich hinterher, was weit davon entfernt ist, die wissenschaftliche Forschung zu transformieren, und eine erhebliche Lücke zwischen Open-Source-Modellen und Closed-Source-Modellen in diesen wissenschaftlichen Domänen hinterlässt. Um diese Lücke zu verringern und einen Schritt weiter in Richtung Künstlicher Allgemeiner Intelligenz (AGI) zu gehen, stellen wir Intern-S1 vor, einen spezialisierten Generalisten, der mit allgemeinem Verständnis und Denkfähigkeiten ausgestattet ist und über Expertise verfügt, um multimodale wissenschaftliche Daten zu analysieren. Intern-S1 ist ein multimodales Mixture-of-Experts (MoE)-Modell mit 28 Milliarden aktivierten Parametern und 241 Milliarden Gesamtparametern, das kontinuierlich auf 5T Tokens vortrainiert wurde, darunter über 2,5T Tokens aus wissenschaftlichen Domänen. In der Post-Training-Phase durchläuft Intern-S1 Offline- und anschließend Online-Reinforcement-Learning (RL) im InternBootCamp, wo wir Mixture-of-Rewards (MoR) vorschlagen, um das RL-Training auf mehr als 1000 Aufgaben gleichzeitig zu synchronisieren. Durch integrierte Innovationen in Algorithmen, Daten und Trainingssysteme hat Intern-S1 Spitzenleistungen im Online-RL-Training erzielt. Auf umfassenden Evaluierungsbenchmarks zeigt Intern-S1 wettbewerbsfähige Leistungen bei allgemeinen Denkaufgaben unter Open-Source-Modellen und übertrifft Open-Source-Modelle in wissenschaftlichen Domänen deutlich, wobei es Closed-Source-State-of-the-Art-Modelle in professionellen Aufgaben wie der Planung von Molekülsynthesen, der Vorhersage von Reaktionsbedingungen und der Vorhersage thermodynamischer Stabilitäten von Kristallen übertrifft. Unsere Modelle sind verfügbar unter https://huggingface.co/internlm/Intern-S1.
Große Sprachmodelle (LLMs) haben großes Potenzial bei Denkaufgaben durch Skalierungsmethoden zur Testzeit wie Selbstkonsistenz mit Mehrheitsentscheidung gezeigt. Dieser Ansatz führt jedoch oft zu abnehmenden Genauigkeitssteigerungen und hohem Rechenaufwand. Um diese Herausforderungen zu bewältigen, stellen wir Deep Think with Confidence (DeepConf) vor, eine einfache, aber leistungsstarke Methode, die sowohl die Denkeffizienz als auch die Leistung zur Testzeit verbessert. DeepConf nutzt modellinterne Konfidenzsignale, um qualitativ minderwertige Denkspuren während oder nach der Generierung dynamisch herauszufiltern. Es erfordert kein zusätzliches Modelltraining oder Hyperparameter-Tuning und kann nahtlos in bestehende Bereitstellungsframeworks integriert werden. Wir evaluieren DeepConf über eine Vielzahl von Denkaufgaben und den neuesten Open-Source-Modellen, einschließlich Qwen 3 und der GPT-OSS-Serie. Bemerkenswerterweise erreicht DeepConf@512 auf anspruchsvollen Benchmarks wie AIME 2025 eine Genauigkeit von bis zu 99,9 % und reduziert die generierten Tokens um bis zu 84,7 % im Vergleich zu vollständig parallelem Denken.
Dieses Paper stellt GUI-Owl vor, ein grundlegendes GUI-Agentenmodell, das state-of-the-art Leistung unter Open-Source-End-to-End-Modellen auf zehn GUI-Benchmarks in Desktop- und Mobilumgebungen erzielt, die Grounding, Fragebeantwortung, Planung, Entscheidungsfindung und prozedurales Wissen abdecken. GUI-Owl-7B erreicht 66,4 auf AndroidWorld und 29,4 auf OSWorld. Darauf aufbauend schlagen wir Mobile-Agent-v3 vor, ein allgemeines GUI-Agenten-Framework, das die Leistung auf 73,3 auf AndroidWorld und 37,7 auf OSWorld weiter verbessert und damit einen neuen State-of-the-art für Open-Source-GUI-Agenten-Frameworks setzt. GUI-Owl integriert drei Schlüsselinnovationen: (1) Groß angelegte Umgebungsinfrastruktur: eine cloud-basierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows umfasst und unser Self-Evolving GUI Trajectory Production Framework ermöglicht. Dieses generiert hochwertige Interaktionsdaten durch automatisierte Abfragegenerierung und Korrektheitsvalidierung, wobei GUI-Owl genutzt wird, um Trajektorien iterativ zu verfeinern und so eine sich selbst verbessernde Schleife zu bilden. Es unterstützt diverse Datenpipelines und reduziert manuelle Annotation. (2) Vielfältige grundlegende Agenten-Fähigkeiten: Durch die Integration von UI-Grounding, Planung, Aktionssemantik und Denkmustern unterstützt GUI-Owl End-to-End-Entscheidungsfindung und kann als modulare Komponente in Multi-Agenten-Systemen fungieren. (3) Skalierbares Umgebungs-RL: Wir entwickeln ein skalierbares Reinforcement-Learning-Framework mit vollständig asynchronem Training für die Ausrichtung auf reale Anwendungen. Zudem führen wir Trajectory-aware Relative Policy Optimization (TRPO) für Online-RL ein, das 34,9 auf OSWorld erreicht. GUI-Owl und Mobile-Agent-v3 sind unter https://github.com/X-PLUG/MobileAgent Open-Source verfügbar.
Tool Calling hat sich als entscheidende Fähigkeit für KI-Agenten etabliert, um mit der realen Welt zu interagieren und komplexe Aufgaben zu lösen. Während das Model Context Protocol (MCP) einen leistungsstarken, standardisierten Rahmen für die Integration von Tools bietet, besteht eine erhebliche Lücke bei der Bewertung, wie effektiv KI-Agenten mehrstufige Aufgaben unter Verwendung verschiedener MCP-Tools in realistischen, dynamischen Szenarien lösen können. In dieser Arbeit stellen wir LiveMCP-101 vor, einen Benchmark mit 101 sorgfältig ausgewählten realen Anfragen, die durch iterative LLM-Überarbeitung und manuelle Überprüfung verfeinert wurden und die eine koordinierte Nutzung mehrerer MCP-Tools wie Websuche, Dateioperationen, mathematisches Denken und Datenanalyse erfordern. Darüber hinaus führen wir einen neuartigen Bewertungsansatz ein, der auf Ground-Truth-Ausführungsplänen basiert und nicht auf rohen API-Ausgaben, wodurch die sich entwickelnde Natur realer Umgebungen besser widergespiegelt wird. Experimente zeigen, dass selbst fortschrittliche LLMs eine Erfolgsquote von unter 60 % erreichen, was die großen Herausforderungen bei der Orchestrierung von Tools verdeutlicht. Detaillierte Ablationen und Fehleranalysen offenbaren zudem unterschiedliche Fehlermodi und Ineffizienzen bei der Token-Nutzung, die konkrete Richtungen für die Weiterentwicklung aktueller Modelle aufzeigen. LiveMCP-101 setzt einen strengen Standard für die Bewertung der Fähigkeiten von KI-Agenten in der realen Welt und trägt dazu bei, autonome KI-Systeme zu entwickeln, die komplexe Aufgaben durch den Einsatz von Tools zuverlässig ausführen können.
Wir präsentieren Waver, ein leistungsstarkes Basismodell für die einheitliche Bild- und Videogenerierung. Waver kann direkt Videos mit einer Dauer von 5 bis 10 Sekunden in einer nativen Auflösung von 720p erzeugen, die anschließend auf 1080p hochskaliert werden. Das Modell unterstützt gleichzeitig Text-zu-Video (T2V), Bild-zu-Video (I2V) und Text-zu-Bild (T2I) Generierung innerhalb eines einzigen, integrierten Frameworks. Wir führen eine Hybrid Stream DiT-Architektur ein, um die Modalitätsausrichtung zu verbessern und die Trainingskonvergenz zu beschleunigen. Um die Qualität der Trainingsdaten sicherzustellen, etablieren wir einen umfassenden Datenkuratierungsprozess und annotieren und trainieren manuell ein MLLM-basiertes Videoqualitätsmodell, um die qualitativ hochwertigsten Proben zu filtern. Darüber hinaus stellen wir detaillierte Trainings- und Inferenzrezepte zur Verfügung, um die Generierung hochwertiger Videos zu erleichtern. Aufbauend auf diesen Beiträgen zeichnet sich Waver durch die Erfassung komplexer Bewegungen aus und erreicht eine überlegene Bewegungsamplitude und zeitliche Konsistenz in der Videosynthese. Bemerkenswerterweise belegt es sowohl in den T2V- als auch in den I2V-Ranglisten von Artificial Analysis (Datenstand: 2025-07-30 10:00 GMT+8) einen Platz unter den Top 3 und übertrifft dabei konsequent bestehende Open-Source-Modelle und erreicht oder übertrifft state-of-the-art kommerzielle Lösungen. Wir hoffen, dass dieser technische Bericht der Gemeinschaft dabei helfen wird, effizienter hochwertige Videogenerierungsmodelle zu trainieren und den Fortschritt in der Videogenerierungstechnologie zu beschleunigen. Offizielle Seite: https://github.com/FoundationVision/Waver.
Die Erzeugung von 3D-Inhalten hat in letzter Zeit aufgrund ihrer Anwendungen in VR/AR und embodied AI erhebliches Forschungsinteresse geweckt. In dieser Arbeit widmen wir uns der anspruchsvollen Aufgabe, mehrere 3D-Assets innerhalb eines einzelnen Szenenbilds zu synthetisieren. Konkret bestehen unsere Beiträge aus vier Aspekten: (i) Wir stellen SceneGen vor, ein neuartiges Framework, das ein Szenenbild und entsprechende Objektmasken als Eingabe verwendet und gleichzeitig mehrere 3D-Assets mit Geometrie und Textur erzeugt. Bemerkenswerterweise arbeitet SceneGen ohne die Notwendigkeit von Optimierung oder Asset-Retrieval; (ii) Wir führen ein neuartiges Feature-Aggregationsmodul ein, das lokale und globale Szeneninformationen aus visuellen und geometrischen Encodern innerhalb des Feature-Extraktionsmoduls integriert. In Kombination mit einem Positionskopf ermöglicht dies die Erzeugung von 3D-Assets und deren relativen räumlichen Positionen in einem einzigen Feedforward-Durchlauf; (iii) Wir demonstrieren die direkte Erweiterbarkeit von SceneGen auf Szenarien mit mehreren Eingabebildern. Obwohl es ausschließlich mit Einzelbild-Eingaben trainiert wurde, ermöglicht unser Architekturdesign eine verbesserte Generierungsleistung bei mehreren Eingabebildern; und (iv) Umfangreiche quantitative und qualitative Auswertungen bestätigen die Effizienz und robusten Generierungsfähigkeiten unseres Ansatzes. Wir glauben, dass dieses Paradigm eine neuartige Lösung für die Erzeugung hochwertiger 3D-Inhalte bietet und potenziell deren praktische Anwendungen in nachgelagerten Aufgaben vorantreiben kann. Der Code und das Modell werden öffentlich verfügbar sein unter: https://mengmouxu.github.io/SceneGen.
In den letzten Jahren hat sich die Tiefe und Breite der Fähigkeiten großer Sprachmodelle rasant entwickelt, und entsprechend sind immer mehr Evaluierungsbenchmarks entstanden. Als quantitatives Bewertungswerkzeug für die Modellleistung sind Benchmarks nicht nur ein zentrales Mittel zur Messung der Modellfähigkeiten, sondern auch ein Schlüsselelement, um die Richtung der Modellentwicklung zu steuern und technologische Innovationen voranzutreiben. Wir geben erstmals einen systematischen Überblick über den aktuellen Stand und die Entwicklung von Benchmarks für große Sprachmodelle und kategorisieren 283 repräsentative Benchmarks in drei Kategorien: allgemeine Fähigkeiten, domänenspezifische und zielgerichtete Benchmarks. Benchmarks für allgemeine Fähigkeiten decken Aspekte wie Kernlinguistik, Wissen und logisches Denken ab; domänenspezifische Benchmarks konzentrieren sich auf Bereiche wie Naturwissenschaften, Geistes- und Sozialwissenschaften sowie Ingenieurtechnik; zielgerichtete Benchmarks befassen sich mit Risiken, Zuverlässigkeit, Agenten usw. Wir weisen darauf hin, dass aktuelle Benchmarks Probleme wie aufgeblähte Bewertungen aufgrund von Datenkontamination, unfaire Bewertungen durch kulturelle und sprachliche Verzerrungen sowie mangelnde Bewertung der Prozessglaubwürdigkeit und dynamischer Umgebungen aufweisen, und liefern ein nachahmenswertes Designparadigma für zukünftige Benchmark-Innovationen.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben es KI-Agenten ermöglicht, wissenschaftliche Vorschläge autonom zu generieren, Experimente durchzuführen, Artikel zu verfassen und Peer-Reviews durchzuführen. Doch diese Flut von KI-generierten Forschungsinhalten stößt auf ein fragmentiertes und weitgehend geschlossenes Publikationsökosystem. Traditionelle Zeitschriften und Konferenzen verlassen sich auf menschliche Peer-Reviews, was sie schwer skalierbar macht und oft zögern lässt, KI-generierte Forschungsinhalte zu akzeptieren; bestehende Preprint-Server (z.B. arXiv) verfügen nicht über strenge Qualitätskontrollmechanismen. Folglich mangelt es einer beträchtlichen Menge an hochwertiger KI-generierter Forschung an geeigneten Plattformen zur Verbreitung, was ihr Potenzial zur Förderung des wissenschaftlichen Fortschritts behindert. Um diese Herausforderungen zu bewältigen, stellen wir aiXiv vor, eine nächste Generation von Open-Access-Plattformen für menschliche und KI-Wissenschaftler. Ihre Multi-Agenten-Architektur ermöglicht es, Forschungsvorschläge und Artikel sowohl von menschlichen als auch von KI-Wissenschaftlern einzureichen, zu überprüfen und iterativ zu verfeinern. Sie bietet auch API- und MCP-Schnittstellen, die eine nahtlose Integration heterogener menschlicher und KI-Wissenschaftler ermöglichen und so ein skalierbares und erweiterbares Ökosystem für autonome wissenschaftliche Entdeckungen schaffen. Durch umfangreiche Experimente zeigen wir, dass aiXiv eine zuverlässige und robuste Plattform ist, die die Qualität von KI-generierten Forschungsvorschlägen und Artikeln nach iterativer Überarbeitung und Überprüfung auf aiXiv erheblich verbessert. Unsere Arbeit legt den Grundstein für ein Open-Access-Ökosystem der nächsten Generation für KI-Wissenschaftler, das die Veröffentlichung und Verbreitung hochwertiger KI-generierter Forschungsinhalte beschleunigt. Der Code ist verfügbar unter https://github.com/aixiv-org. Die Website ist verfügbar unter https://forms.gle/DxQgCtXFsJ4paMtn8.
Parametrische Körpermodelle bieten eine ausdrucksstarke 3D-Darstellung von Menschen über eine breite Palette von Posen, Formen und Gesichtsausdrücken, die typischerweise durch das Lernen einer Basis über registrierte 3D-Meshes abgeleitet werden. Allerdings haben bestehende Ansätze zur Modellierung menschlicher Meshes Schwierigkeiten, detaillierte Variationen über diverse Körperposen und -formen zu erfassen, was größtenteils auf die begrenzte Vielfalt der Trainingsdaten und restriktive Modellierungsannahmen zurückzuführen ist. Darüber hinaus optimiert das gängige Paradigma zunächst die äußere Körperoberfläche mithilfe einer linearen Basis und regrediert anschließend interne Skelettgelenke von den Oberflächenvertices. Dieser Ansatz führt zu problematischen Abhängigkeiten zwischen dem internen Skelett und dem äußeren Weichgewebe, was die direkte Kontrolle über Körpergröße und Knochenlängen einschränkt. Um diese Probleme zu lösen, präsentieren wir ATLAS, ein hochauflösendes Körpermodell, das aus 600.000 hochauflösenden Scans, die mit 240 synchronisierten Kameras aufgenommen wurden, gelernt wurde. Im Gegensatz zu früheren Methoden entkoppeln wir explizit die Form- und Skelettbasen, indem wir unsere Mesh-Darstellung im menschlichen Skelett verankern. Diese Entkopplung ermöglicht eine verbesserte Formausdruckskraft, eine fein abgestimmte Anpassung von Körperattributen und die Anpassung von Keypoints unabhängig von den Eigenschaften des äußeren Weichgewebes. ATLAS übertrifft bestehende Methoden, indem es unbekannte Subjekte in verschiedenen Posen genauer anpasst, und quantitative Auswertungen zeigen, dass unsere nicht-linearen Pose-Korrekturen komplexe Posen im Vergleich zu linearen Modellen effektiver erfassen.
Jüngste Fortschritte in Diffusionsmodellen haben eine bemerkenswerte visuelle Qualität bei der anweisungsgesteuerten Bildbearbeitung erreicht. Ihr globaler Denoising-Prozess verknüpft jedoch den bearbeiteten Bereich zwangsläufig mit dem gesamten Bildkontext, was zu unbeabsichtigten, unerwünschten Modifikationen und einer beeinträchtigten Einhaltung der Bearbeitungsanweisungen führt. Im Gegensatz dazu bieten autoregressive Modelle ein alternatives Paradigma, indem sie die Bildsynthese als sequenziellen Prozess über diskrete visuelle Tokens formulieren. Ihr kausaler und kompositioneller Mechanismus umgeht natürlicherweise die Einhaltungsprobleme diffusionsbasierter Methoden. In diesem Artikel stellen wir VAREdit vor, ein visuelles autoregressives (VAR) Framework, das die Bildbearbeitung als ein Next-Scale-Vorhersageproblem neu definiert. Basierend auf Quellbildmerkmalen und Textanweisungen generiert VAREdit mehrskalige Zielmerkmale, um präzise Bearbeitungen zu erreichen. Eine zentrale Herausforderung in diesem Paradigma ist die effektive Konditionierung der Quellbild-Tokens. Wir beobachten, dass feinstskalige Quellmerkmale die Vorhersage gröberer Zielmerkmale nicht effektiv leiten können. Um diese Lücke zu schließen, führen wir ein Scale-Aligned Reference (SAR)-Modul ein, das skalengerechte Konditionierungsinformationen in die erste Self-Attention-Schicht einfügt. VAREdit zeigt signifikante Fortschritte sowohl in der Bearbeitungsgenauigkeit als auch in der Effizienz. Auf Standard-Benchmarks übertrifft es führende diffusionsbasierte Methoden um mehr als 30 % im GPT-Balance-Score. Darüber hinaus vollendet es eine 512x512-Bearbeitung in 1,2 Sekunden, was es 2,2-mal schneller macht als das ähnlich große UltraEdit. Die Modelle sind unter https://github.com/HiDream-ai/VAREdit verfügbar.
Interaktive digitale Karten haben revolutioniert, wie Menschen reisen und die Welt kennenlernen; sie basieren jedoch auf bereits vorhandenen strukturierten Daten in GIS-Datenbanken (z. B. Straßennetze, POI-Indizes), was ihre Fähigkeit einschränkt, geovisuelle Fragen zu beantworten, die sich darauf beziehen, wie die Welt aussieht. Wir stellen unsere Vision für Geo-Visuelle Agenten vor – multimodale KI-Agenten, die in der Lage sind, differenzierte visuell-räumliche Anfragen über die Welt zu verstehen und zu beantworten, indem sie umfangreiche Repositorien geospatialer Bilder analysieren, darunter Straßenansichten (z. B. Google Street View), ortsbezogene Fotos (z. B. TripAdvisor, Yelp) und Luftaufnahmen (z. B. Satellitenfotos) in Kombination mit traditionellen GIS-Datenquellen. Wir definieren unsere Vision, beschreiben Ansätze zur Wahrnehmung und Interaktion, liefern drei exemplarische Beispiele und listen zentrale Herausforderungen und Chancen für zukünftige Arbeiten auf.
Die Rekonstruktion von 3D-Menschmodellen aus spärlichen Ansichten ist ein attraktives Forschungsthema, das entscheidend ist, um die damit verbundenen Anwendungen zu erweitern. In diesem Artikel schlagen wir eine äußerst anspruchsvolle, aber wertvolle Aufgabe vor: die Rekonstruktion des menschlichen Körpers aus nur zwei Bildern, nämlich der Front- und Rückansicht, wodurch die Hürde für Benutzer, ihre eigenen 3D-Digitalmenschen zu erstellen, erheblich gesenkt werden kann. Die Hauptherausforderungen liegen in der Schwierigkeit, 3D-Konsistenz herzustellen und fehlende Informationen aus den sehr spärlichen Eingabedaten wiederherzustellen. Wir haben ein Geometrie-Rekonstruktionsmodell basierend auf Grundlagen-Rekonstruktionsmodellen neu gestaltet, um konsistente Punktwolken vorherzusagen, selbst wenn die Eingabebilder nur geringe Überlappungen aufweisen, und dies durch umfangreiche Trainingsdaten von Menschen unterstützt. Darüber hinaus wird ein Verbesserungsalgorithmus angewendet, um die fehlenden Farbinformationen zu ergänzen, wodurch vollständige menschliche Punktwolken mit Farben erzeugt werden können, die direkt in 3D-Gaußsche Verteilungen umgewandelt werden, um eine bessere Rendering-Qualität zu erreichen. Experimente zeigen, dass unsere Methode den gesamten Menschen in 190 ms auf einer einzelnen NVIDIA RTX 4090 rekonstruieren kann, wobei zwei Bilder mit einer Auflösung von 1024x1024 verwendet werden, was state-of-the-art Leistungen auf den THuman2.0- und Cross-Domain-Datensätzen demonstriert. Zusätzlich kann unsere Methode die menschliche Rekonstruktion auch mit Bildern abschließen, die von kostengünstigen Mobilgeräten aufgenommen wurden, wodurch die Anforderungen an die Datenerfassung reduziert werden. Demos und Code sind verfügbar unter https://hustvl.github.io/Snap-Snap/.
Die Entwicklung von Large Speech-Language Models (LSLMs) wurde durch fragmentierte Architekturen und einen Mangel an Transparenz verlangsamt, was die systematische Vergleichbarkeit und Reproduzierbarkeit von Forschungsergebnissen behindert. Im Gegensatz zum Bereich der Vision-Language-Modelle leidet das LSLM-Feld unter der gängigen Praxis, Modellgewichte ohne die entsprechenden Trainingsdaten und Konfigurationen zu veröffentlichen. Um diese kritischen Lücken zu schließen, stellen wir LLaSO vor, das erste vollständig offene, end-to-end Framework für die großskalige Sprachmodellierung. LLaSO bietet der Community drei wesentliche Ressourcen: (1) LLaSO-Align, ein Korpus mit 12 Millionen Instanzen zur Sprach-Text-Ausrichtung; (2) LLaSO-Instruct, ein Multi-Task-Instruction-Tuning-Datensatz mit 13,5 Millionen Instanzen; und (3) LLaSO-Eval, einen reproduzierbaren Benchmark für standardisierte Bewertungen. Um unser Framework zu validieren, entwickeln und veröffentlichen wir LLaSO-Base, ein Referenzmodell mit 3,8 Milliarden Parametern, das ausschließlich auf unseren öffentlichen Daten trainiert wurde. Es erreicht einen normalisierten Score von 0,72 und etabliert damit eine starke, reproduzierbare Baseline, die vergleichbare Modelle übertrifft. Unsere Analyse zeigt, dass zwar eine breitere Trainingsabdeckung die Leistung verbessert, signifikante Generalisierungslücken bei unbekannten Aufgaben, insbesondere in reinen Audio-Szenarien, bestehen bleiben. Durch die Veröffentlichung des vollständigen Stacks aus Daten, Benchmarks und Modellen schafft LLaSO einen grundlegenden offenen Standard, um Forschungsbemühungen zu vereinen und den gemeinschaftsgetriebenen Fortschritt im Bereich der LSLMs zu beschleunigen. Wir veröffentlichen den Code, den Datensatz, vortrainierte Modelle und die Ergebnisse unter https://github.com/EIT-NLP/LLaSO.
Das Verständnis von Videos erfordert mehr als die Beantwortung offener Fragen; es verlangt die Fähigkeit, genau zu bestimmen, wann Ereignisse stattfinden und wie Entitäten über die Zeit hinweg interagieren. Während neuere Video-LLMs bemerkenswerte Fortschritte im ganzheitlichen Denken erzielt haben, bleiben sie in der zeitlichen Wahrnehmung grob: Zeitstempel werden nur implizit kodiert, Frame-Level-Merkmale sind schwach in der Erfassung von Kontinuität, und die Ausrichtung von Sprache und Vision driftet oft von den relevanten Entitäten ab. In diesem Artikel stellen wir Grounded VideoDiT vor, ein Video-LLM, das entwickelt wurde, um diese Einschränkungen durch drei Schlüsselinnovationen zu überwinden. Erstens verbessert ein Diffusion Temporal Latent (DTL)-Encoder die Grenzempfindlichkeit und bewahrt die zeitliche Konsistenz. Zweitens binden objektbezogene Darstellungen Abfrageentitäten explizit an lokalisierte visuelle Beweise, was die Ausrichtung stärkt. Drittens ermöglicht ein gemischtes Token-Schema mit diskreten zeitlichen Token eine explizite Zeitstempelmodellierung, die eine feinkörnige zeitliche Argumentation ermöglicht. Zusammen statten diese Entwürfe Grounded VideoDiT mit robusten Verankerungsfähigkeiten aus, wie durch Spitzenergebnisse auf Charades STA, NExT GQA und mehreren VideoQA-Benchmarks bestätigt wird.
Process Reward Models (PRMs) haben sich als vielversprechendes Framework zur Überwachung von Zwischenschritten in der Argumentation großer Sprachmodelle (LLMs) erwiesen. Bisherige PRMs werden jedoch hauptsächlich in allgemeinen oder MINT-Bereichen (Mathematik, Informatik, Naturwissenschaften, Technik) trainiert und sind in domänenspezifischen Kontexten wie der Finanzwelt, wo die Argumentation strukturierter, symbolischer und sensibler gegenüber faktischer und regulatorischer Korrektheit ist, unzureichend. Wir stellen Fin-PRM vor, einen domänenspezialisierten, trajektorienbewussten PRM, der darauf ausgelegt ist, Zwischenschritte in finanziellen Aufgaben zu bewerten. Fin-PRM integriert die Überwachung von Belohnungen auf Schritt- und Trajektorienebene, wodurch eine feingranulare Bewertung von Argumentationspfaden ermöglicht wird, die mit der finanziellen Logik übereinstimmen. Wir wenden Fin-PRM sowohl in Offline- als auch in Online-Belohnungslernsettings an und unterstützen drei Schlüsselanwendungen: (i) die Auswahl hochwertiger Argumentationstrajektorien für die distillationsbasierte überwachte Feinabstimmung, (ii) die Bereitstellung dichter prozessbasierter Belohnungen für bestärkendes Lernen und (iii) die Steuerung von belohnungsinformierter Best-of-N-Inferenz zur Testzeit. Experimentelle Ergebnisse auf finanziellen Argumentationsbenchmarks, einschließlich CFLUE und FinQA, zeigen, dass Fin-PRM durchweg allgemeine PRMs und starke domänenspezifische Baselines in der Qualität der Trajektorienauswahl übertrifft. Downstream-Modelle, die mit Fin-PRM trainiert wurden, erzielen erhebliche Verbesserungen gegenüber den Baselines, mit Steigerungen von 12,9 % im überwachten Lernen, 5,2 % im bestärkenden Lernen und 5,1 % in der Testleistung. Diese Ergebnisse unterstreichen den Wert domänenspezialisierter Belohnungsmodelle für die Ausrichtung von LLMs an expertengestützter finanzieller Argumentation. Unsere Projektressourcen werden unter https://github.com/aliyun/qwen-dianjin verfügbar sein.
KI-Kameradschaft, bei der Nutzer emotionale Bindungen zu KI-Systemen entwickeln, hat sich als ein bedeutendes Muster mit sowohl positiven als auch besorgniserregenden Implikationen herausgestellt. Wir stellen den „Interactions and Machine Attachment Benchmark“ (INTIMA) vor, einen Benchmark zur Bewertung von Kameradschaftsverhalten in Sprachmodellen. Basierend auf psychologischen Theorien und Nutzerdaten entwickeln wir eine Taxonomie von 31 Verhaltensweisen, die in vier Kategorien und 368 gezielte Prompts unterteilt sind. Die Reaktionen auf diese Prompts werden als kameradschaftsfördernd, grenzenwahrend oder neutral bewertet. Die Anwendung von INTIMA auf Gemma-3, Phi-4, o3-mini und Claude-4 zeigt, dass kameradschaftsfördernde Verhaltensweisen bei allen Modellen deutlich häufiger vorkommen, obwohl wir deutliche Unterschiede zwischen den Modellen feststellen. Verschiedene kommerzielle Anbieter priorisieren unterschiedliche Kategorien innerhalb der sensibleren Teile des Benchmarks, was bedenklich ist, da sowohl angemessene Grenzsetzung als auch emotionale Unterstützung für das Wohlbefinden der Nutzer von Bedeutung sind. Diese Ergebnisse unterstreichen die Notwendigkeit für konsistentere Ansätze im Umgang mit emotional aufgeladenen Interaktionen.