papers.description
Chain-of-Thought (CoT) Prompting hat sich als wirksame Methode erwiesen, um die Leistung von Large Language Models (LLMs) bei verschiedenen Aufgaben zu verbessern. Bei diesem Ansatz scheinen LLMs menschenähnliche Denkschritte zu erzeugen, bevor sie Antworten liefern (sog. CoT-Reasoning), was oft den Eindruck erweckt, dass sie gezielte Schlussfolgerungsprozesse durchführen. Erste Erkenntnisse deuten jedoch darauf hin, dass CoT-Reasoning oberflächlicher sein könnte, als es erscheint, was uns dazu motiviert, dies weiter zu erforschen. In dieser Arbeit untersuchen wir CoT-Reasoning aus der Perspektive der Datenverteilung und prüfen, ob CoT-Reasoning einen strukturierten induktiven Bias widerspiegelt, der aus in-distribution Daten gelernt wurde und es dem Modell ermöglicht, bedingt Denkpfade zu generieren, die denen während des Trainings ähnlich sind. Somit ist seine Wirksamkeit grundlegend durch den Grad der Verteilungsabweichung zwischen den Trainingsdaten und den Testanfragen begrenzt. Mit diesem Ansatz zerlegen wir CoT-Reasoning in drei Dimensionen: Aufgabe, Länge und Format. Um jede Dimension zu untersuchen, entwickeln wir DataAlchemy, eine isolierte und kontrollierte Umgebung, in der LLMs von Grund auf trainiert und systematisch unter verschiedenen Verteilungsbedingungen geprüft werden. Unsere Ergebnisse zeigen, dass CoT-Reasoning ein brüchiges Trugbild ist, das verschwindet, wenn es über die Trainingsverteilungen hinausgeht. Diese Arbeit bietet ein tieferes Verständnis dafür, warum und wann CoT-Reasoning versagt, und unterstreicht die anhaltende Herausforderung, echtes und generalisierbares Reasoning zu erreichen.
Aktuelle Studien haben sich mit der Entwicklung autonomer Agenten befasst, die in der Lage sind, komplexe Computeraufgaben auf Basis von grafischen Benutzeroberflächen (GUIs) auszuführen, was das Potenzial hat, die Mensch-Computer-Interaktion zu revolutionieren. Trotz ermutigender Ergebnisse konzentrieren sich bestehende Bemühungen hauptsächlich auf kurzfristige Interaktionen und stützen sich auf eine reine Ergebnisüberprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen, die eine langfristige Aufgabenzerlegung und -ausführung erfordern, einschränkt. In dieser Arbeit stellen wir VeriGUI vor, einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Bewertung von generalistischen GUI-Agenten in realistischen Computerumgebungen erleichtern soll. Unser Datensatz betont zwei kritische Dimensionen: (1) die Komplexität langkettiger Aufgaben, bei denen Aufgaben in eine Abfolge voneinander abhängiger Teilaufgaben zerlegt werden, die Hunderte von Schritten umfassen und explizit so gestaltet sind, dass jede Teilaufgabe als gültiger Ausgangspunkt dienen kann; und (2) die Verifizierbarkeit auf Teilaufgabenebene, die verschiedene Explorationsstrategien innerhalb jeder Teilaufgabe ermöglicht, während sichergestellt wird, dass das Ziel jeder Teilaufgabe verifizierbar und konsistent bleibt. Der Datensatz besteht aus GUI-Aufgabenverläufen sowohl auf Desktop- als auch auf Webplattformen, die von menschlichen Experten annotiert wurden. Umfangreiche Experimente mit VeriGUI unter Verwendung verschiedener Agenten mit unterschiedlichen Basismodellen zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben auf und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfähigkeiten in GUI-Agenten.
Die bemerkenswerten Fähigkeiten von Large Language Model (LLM)-gesteuerten Agenten haben es fortschrittlichen Systemen ermöglicht, komplexe, mehrstufige Aufgaben zu bewältigen, doch ihre steigenden Kosten gefährden die Skalierbarkeit und Zugänglichkeit. Diese Arbeit präsentiert die erste systematische Studie zum Effizienz-Effektivitäts-Kompromiss in modernen Agentensystemen und adressiert den kritischen Bedarf an kosteneffizienten Designs ohne Leistungseinbußen. Wir untersuchen drei zentrale Fragen: (1) Wie viel Komplexität erfordern agentenbasierte Aufgaben inhärent? (2) Wann führen zusätzliche Module zu abnehmenden Erträgen? (3) Wie viel Effizienz kann durch das Design effizienter Agenten-Frameworks gewonnen werden? Durch eine empirische Analyse auf dem GAIA-Benchmark bewerten wir die Auswirkungen der LLM-Backbone-Auswahl, der Agenten-Framework-Designs und der Skalierungsstrategien zur Testzeit. Mithilfe der Cost-of-Pass-Metrik quantifizieren wir den Effizienz-Leistungs-Kompromiss in diesen Dimensionen. Unsere Erkenntnisse informieren die Entwicklung von Efficient Agents, einem neuartigen Agenten-Framework, das eine optimale Komplexität in Bezug auf die Aufgabenanforderungen aufweist. Efficient Agents behält 96,7 % der Leistung von OWL, einem führenden Open-Source-Agenten-Framework, bei und reduziert gleichzeitig die Betriebskosten von 0,398 auf 0,228, was einer Verbesserung des Cost-of-Pass um 28,4 % entspricht. Unsere Arbeit liefert umsetzbare Erkenntnisse für die Gestaltung effizienter, leistungsstarker Agentensysteme und fördert die Zugänglichkeit und Nachhaltigkeit von KI-gestützten Lösungen.
Wir präsentieren Agent Lightning, ein flexibles und erweiterbares Framework, das das Reinforcement Learning (RL)-basierte Training von Large Language Models (LLMs) für beliebige KI-Agenten ermöglicht. Im Gegensatz zu bestehenden Methoden, die RL-Training eng mit dem Agenten koppeln oder auf Sequenzverkettung mit Maskierung angewiesen sind, erreicht Agent Lightning eine vollständige Entkopplung zwischen Agentenausführung und Training. Dies ermöglicht eine nahtlose Integration mit bestehenden Agenten, die auf unterschiedliche Weise entwickelt wurden (z. B. mit Frameworks wie LangChain, OpenAI Agents SDK, AutoGen oder von Grund auf neu), ohne dass nahezu KEINE Codeänderungen erforderlich sind. Indem wir die Agentenausführung als Markov-Entscheidungsprozess formulieren, definieren wir eine einheitliche Datenschnittstelle und schlagen einen hierarchischen RL-Algorithmus, LightningRL, vor, der ein Credit-Assignment-Modul enthält. Dies ermöglicht es uns, Trajektorien, die von BELIEBIGEN Agenten generiert werden, in Trainingsübergänge zu zerlegen. Dadurch kann RL komplexe Interaktionslogiken wie Multi-Agenten-Szenarien und dynamische Workflows bewältigen. Für das Systemdesign führen wir eine Training-Agent-Disaggregation-Architektur ein und integrieren Agenten-Beobachtbarkeitsframeworks in die Laufzeitumgebung des Agenten, wodurch eine standardisierte Feinabstimmungsschnittstelle bereitgestellt wird. Experimente in den Bereichen Text-to-SQL, retrieval-augmentierte Generierung und mathematische Werkzeugnutzung zeigen stabile, kontinuierliche Verbesserungen und demonstrieren das Potenzial des Frameworks für das Training und den Einsatz von Agenten in der Praxis.
Die Forschung zur Anwendung von Reinforcement Learning (RL) auf Large Language Models (LLMs) hat sich bisher hauptsächlich auf Einzelprobleme wie mathematisches Denken oder einmalige Code-Generierung konzentriert. Obwohl diese Probleme als tokenbasierte Mehrschritt-Markov-Entscheidungsprozesse (MDPs) betrachtet werden können, entspricht diese Sichtweise einem degenerierten Fall von Mehrschritt-Interaktionen, bei denen die Umgebung kein Feedback liefert. Dies steht im Gegensatz zu vielen realen Anwendungsbereichen, wie der Softwareentwicklung (SWE), die reichhaltige Mehrschritt-Interaktionen mit einer zustandsbehafteten Umgebung erfordern, die auf jede Aktion mit einer nicht-trivialen Beobachtung reagiert. Um diese Lücke zu schließen, demonstrieren wir die erfolgreiche Anwendung von RL auf dieses allgemeine Regime. Mit einem modifizierten Decoupled Advantage Policy Optimization (DAPO)-Algorithmus trainieren wir einen Agenten auf Basis von Qwen2.5-72B-Instruct, um reale Softwareentwicklungsaufgaben zu lösen. Unser Ansatz steigert die Erfolgsrate des Agenten im SWE-bench Verified-Benchmark von einer 20%-Ablehnungsrate bei feinabgestimmten Basismodellen auf 39%, ohne auf Lehrer-Modelle zurückzugreifen. Im SWE-rebench-Benchmark erreicht oder übertrifft unser Agent führende Open-Weight-Modelle wie DeepSeek-V3-0324 und Qwen3-235B-A22B unter Verwendung identischer Rahmenbedingungen. Dies bietet einen vielversprechenden Weg zur Entwicklung leistungsfähigerer autonomer Agenten für komplexe reale Probleme auf Basis offener Modelle.
Die Umwidmung großer Vision-Sprach-Modelle (LVLMs) zu Computer-Nutzungs-Agenten (CUAs) hat zu erheblichen Durchbrüchen geführt, die hauptsächlich durch menschlich annotierte Daten vorangetrieben wurden. Diese Modelle haben jedoch oft Schwierigkeiten mit neuartiger und spezialisierter Software, insbesondere in Szenarien, in denen menschliche Annotationen fehlen. Um diese Herausforderung zu bewältigen, schlagen wir SEAgent vor, ein agentenbasiertes, selbstentwickelndes Framework, das CUAs ermöglicht, sich autonom durch Interaktionen mit unbekannter Software weiterzuentwickeln. Konkret befähigt SEAgent Computer-Nutzungs-Agenten, neuartige Softwareumgebungen autonom durch erfahrungsbasiertes Lernen zu meistern, wobei die Agenten neue Software erkunden, durch iteratives Ausprobieren lernen und schrittweise automatisch generierte Aufgaben bewältigen, die von einfach bis komplex organisiert sind. Um dieses Ziel zu erreichen, entwerfen wir ein Weltzustandsmodell für die schrittweise Bewertung von Trajektorien sowie einen Lehrplan-Generator, der zunehmend vielfältige und herausfordernde Aufgaben erstellt. Die Policy des Agenten wird durch erfahrungsbasiertes Lernen aktualisiert, das aus der adversarischen Nachahmung von Fehlaktionen und der Gruppen-Relativen-Policy-Optimierung (GRPO) bei erfolgreichen Aktionen besteht. Darüber hinaus führen wir eine Spezialisten-zu-Generalisten-Trainingsstrategie ein, die individuelle Erfahrungserkenntnisse von Spezialistenagenten integriert und die Entwicklung eines stärkeren Generalisten-CUA ermöglicht, der sich kontinuierlich autonom weiterentwickeln kann. Dieser vereinheitlichte Agent übertrifft schließlich die Leistung von Ensembles individueller Spezialistenagenten in ihrer spezialisierten Software. Wir validieren die Wirksamkeit von SEAgent in fünf neuartigen Softwareumgebungen innerhalb von OS-World. Unser Ansatz erzielt eine signifikante Verbesserung der Erfolgsrate um 23,2 %, von 11,3 % auf 34,5 %, gegenüber einem konkurrenzfähigen Open-Source-CUA, nämlich UI-TARS.
Interaktive multimodale Agenten müssen rohe visuelle Beobachtungen in kohärente Sequenzen von sprachbedingten Aktionen umwandeln – eine Fähigkeit, die aktuelle Vision-Language-Modelle (VLMs) noch nicht besitzen. Frühere Reinforcement-Learning (RL)-Ansätze könnten prinzipiell VLMs mit solchen Fähigkeiten ausstatten, aber sie haben selten getestet, ob die gelernten Verhaltensweisen über ihre Trainingssimulatoren hinaus generalisieren, und sie sind entweder auf empfindliche Hyperparameter-Tuning oder auf Umgebungen mit dichten Belohnungen und geringer Zustandsvarianz angewiesen. Wir stellen Vision-Language Decoupled Actor-Critic (VL-DAC) vor, einen leichten, hyperparameterfreien RL-Algorithmus. VL-DAC wendet PPO-Updates auf Aktions-Tokens an, während der Wert nur auf der Ebene der Umgebungsschritte gelernt wird: eine Anordnung, die unseres Wissens bisher nicht für große VLMs oder LLMs erforscht wurde. Diese einfache Entkopplung entfernt instabile Gewichtungsterme und führt zu schnellerer, zuverlässigerer Konvergenz. Das Training eines einzelnen VLM mit VL-DAC in einem kostengünstigen Simulator nach dem anderen (MiniWorld, Gym-Cards, ALFWorld oder WebShop) erzeugt bereits Richtlinien, die weitgehend generalisieren: +50\% relativ auf BALROG (spielzentrierte agentische Steuerung), +5\% relativ auf dem schwierigsten Teil von VSI-Bench (räumliche Planung) und +2\% auf VisualWebBench (Web-Navigation), alles ohne die allgemeine Bildverständnisgenauigkeit zu beeinträchtigen. Diese Ergebnisse liefern den ersten Beweis, dass ein einfacher RL-Algorithmus VLMs vollständig in kostengünstigen synthetischen Welten trainieren kann, während er messbare Verbesserungen auf realen Bildern für agentische, räumliche Schlussfolgerungs- und Web-Navigations-Benchmarks liefert.
Soziale Intelligenz ist zu einer entscheidenden Fähigkeit für große Sprachmodelle (LLMs) geworden, die es ihnen ermöglicht, effektiv an realen sozialen Aufgaben wie Anpassung, Überzeugung, Zusammenarbeit und Verhandlung teilzunehmen. Reinforcement Learning (RL) eignet sich natürlich für das Training sozial intelligenter Agenten, da es Modellen ermöglicht, komplexe Strategien direkt durch soziale Interaktionen zu erlernen. Soziale Interaktionen weisen jedoch zwei Schlüsselmerkmale auf, die Barrieren für das RL-Training darstellen: (1) Partielle Beobachtbarkeit, bei der Äußerungen indirekte und verzögerte Effekte haben, was die Kreditvergabe erschwert, und (2) Mehrdimensionalität, bei der Verhaltensweisen wie Beziehungsaufbau oder Wissenssuche indirekt zur Zielerreichung beitragen. Diese Merkmale machen RL auf Basis von Markov-Entscheidungsprozessen (MDP) mit eindimensionalen Belohnungen auf Episodebene ineffizient und instabil. Um diese Herausforderungen zu bewältigen, schlagen wir Sotopia-RL vor, ein neuartiges Framework, das grobes Feedback auf Episodebene in Äußerungsbezogene, mehrdimensionale Belohnungen verfeinert. Die Kreditvergabe auf Äußerungsebene mildert die partielle Beobachtbarkeit, indem sie Ergebnisse einzelnen Äußerungen zuschreibt, während mehrdimensionale Belohnungen die volle Komplexität sozialer Interaktionen erfassen und Belohnungsmanipulation reduzieren. Experimente in Sotopia, einer offenen sozialen Lernumgebung, zeigen, dass Sotopia-RL state-of-the-art Ergebnisse bei der Erreichung sozialer Ziele erzielt (7,17 bei Sotopia-hard und 8,31 bei Sotopia-full) und bestehende Ansätze deutlich übertrifft. Ablationsstudien bestätigen die Notwendigkeit sowohl der Kreditvergabe auf Äußerungsebene als auch des mehrdimensionalen Belohnungsdesigns für das RL-Training. Unsere Implementierung ist öffentlich verfügbar unter: https://github.com/sotopia-lab/sotopia-rl.
Die Toxizität von Arzneimitteln bleibt eine große Herausforderung in der pharmazeutischen Entwicklung. Aktuelle maschinelle Lernmodelle haben die in silico-Toxizitätsvorhersage verbessert, doch ihre Abhängigkeit von annotierten Daten und mangelnde Interpretierbarkeit schränken ihre Anwendbarkeit ein. Dies begrenzt ihre Fähigkeit, organspezifische Toxizitäten zu erfassen, die durch komplexe biologische Mechanismen verursacht werden. Große Sprachmodelle (LLMs) bieten eine vielversprechende Alternative durch schrittweises Denken und die Integration von Textdaten, doch bisherige Ansätze fehlt es an biologischem Kontext und transparenter Begründung. Um dieses Problem zu lösen, schlagen wir CoTox vor, ein neuartiges Framework, das LLM mit Chain-of-Thought (CoT)-Denken für die Vorhersage von Multi-Toxizität kombiniert. CoTox integriert chemische Strukturdaten, biologische Pfade und Gene-Ontology (GO)-Begriffe, um interpretierbare Toxizitätsvorhersagen durch schrittweises Denken zu generieren. Mit GPT-4o zeigen wir, dass CoTox sowohl traditionelle maschinelle Lernmodelle als auch Deep-Learning-Modelle übertrifft. Wir untersuchen weiterhin seine Leistung über verschiedene LLMs hinweg, um zu identifizieren, wo CoTox am effektivsten ist. Zusätzlich stellen wir fest, dass die Darstellung chemischer Strukturen mit IUPAC-Namen, die für LLMs leichter zu verstehen sind als SMILES, die Denkfähigkeit des Modells verbessert und die Vorhersageleistung steigert. Um den praktischen Nutzen in der Arzneimittelentwicklung zu demonstrieren, simulieren wir die Behandlung relevanter Zelltypen mit einem Wirkstoff und integrieren den daraus resultierenden biologischen Kontext in das CoTox-Framework. Dieser Ansatz ermöglicht es CoTox, Toxizitätsvorhersagen zu generieren, die mit physiologischen Reaktionen übereinstimmen, wie in einer Fallstudie gezeigt wird. Dieses Ergebnis unterstreicht das Potenzial von LLM-basierten Frameworks, die Interpretierbarkeit zu verbessern und die Sicherheitsbewertung von Arzneimitteln in frühen Entwicklungsstadien zu unterstützen. Der Code und die verwendeten Prompts sind unter https://github.com/dmis-lab/CoTox verfügbar.
Multimodale großskalige Modelle haben die Entwicklung von Web-Agenten erheblich vorangetrieben und ermöglichen eine Wahrnehmung und Interaktion mit digitalen Umgebungen, die der menschlichen Kognition ähnelt. In diesem Artikel argumentieren wir, dass Web-Agenten zunächst ausreichend Wissen erwerben müssen, um effektiv an kognitiven Denkprozessen teilnehmen zu können. Daher unterteilen wir die Fähigkeiten eines Web-Agenten in zwei wesentliche Phasen: Wissensinhaltslernen und kognitive Prozesse. Um dies zu formalisieren, schlagen wir das Web-CogKnowledge-Framework vor, das Wissen in die Kategorien Faktisch, Konzeptionell und Prozedural einteilt. In diesem Framework entspricht das Wissensinhaltslernen den Prozessen des Merkens und Verstehens des Agenten, die sich auf die ersten beiden Wissensarten stützen und das „Was“ des Lernens darstellen. Im Gegensatz dazu entsprechen die kognitiven Prozesse dem Erkunden, das auf prozeduralem Wissen basiert und das „Wie“ des Denkens und Handelns definiert. Um den Wissenserwerb zu erleichtern, erstellen wir das Web-CogDataset, eine strukturierte Ressource, die aus 14 realen Websites kuratiert wurde und darauf abzielt, das Kernwissen, das für einen Web-Agenten erforderlich ist, systematisch zu vermitteln. Dieser Datensatz dient als konzeptionelle Grundlage des Agenten – die „Substantive“, auf denen das Verständnis aufbaut – sowie als Basis für das Erlernen des Denkens und Handelns. Auf dieser Grundlage operationalisieren wir diese Prozesse durch einen neuartigen wissensgesteuerten Chain-of-Thought (CoT)-Denkrahmen und entwickeln und trainieren unseren vorgeschlagenen Agenten, den Web-CogReasoner. Umfangreiche Experimente zeigen seine deutliche Überlegenheit gegenüber bestehenden Modellen, insbesondere bei der Generalisierung auf unbekannte Aufgaben, bei denen strukturiertes Wissen entscheidend ist. Um eine strenge Bewertung zu ermöglichen, führen wir den Web-CogBench ein, eine umfassende Evaluationssuite, die darauf abzielt, die Leistung von Agenten in den definierten Wissensdomänen und kognitiven Fähigkeiten zu bewerten und zu vergleichen. Unser Code und unsere Daten sind unter https://github.com/Gnonymous/Web-CogReasoner open source verfügbar.
Die Umwandlung von Webseiten-Designs in Code (Design-to-Code) spielt eine entscheidende Rolle in der Entwicklung von Benutzeroberflächen (UI) für Frontend-Entwickler, da sie die Lücke zwischen visuellem Design und funktionaler Implementierung schließt. Obwohl neuere Multimodale Große Sprachmodelle (MLLMs) ein erhebliches Potenzial in Design-to-Code-Aufgaben gezeigt haben, gelingt es ihnen oft nicht, das Layout während der Code-Generierung präzise zu bewahren. Inspiriert von der Chain-of-Thought (CoT)-Argumentation in der menschlichen Kognition, schlagen wir LaTCoder vor, einen neuartigen Ansatz, der die Layoutbewahrung bei der Code-Generierung von Webseiten-Designs durch Layout-as-Thought (LaT) verbessert. Konkret führen wir zunächst einen einfachen, aber effizienten Algorithmus ein, um das Webseiten-Design in Bildblöcke zu unterteilen. Anschließend verwenden wir einen CoT-basierten Ansatz, um MLLMs dazu zu veranlassen, Code für jeden Block zu generieren. Schließlich wenden wir zwei Assemblierungsstrategien an – absolute Positionierung und eine MLLM-basierte Methode – gefolgt von einer dynamischen Auswahl, um das optimale Ergebnis zu bestimmen. Wir evaluieren die Wirksamkeit von LaTCoder mit mehreren Basis-MLLMs (d. h. DeepSeek-VL2, Gemini und GPT-4o) sowohl anhand eines öffentlichen Benchmarks als auch eines neu eingeführten, anspruchsvolleren Benchmarks (CC-HARD), der komplexe Layouts aufweist. Die experimentellen Ergebnisse anhand automatischer Metriken zeigen signifikante Verbesserungen. Insbesondere stiegen die TreeBLEU-Werte um 66,67 % und der MAE sank um 38 %, wenn DeepSeek-VL2 im Vergleich zur direkten Prompting-Methode verwendet wurde. Darüber hinaus zeigen die Ergebnisse der menschlichen Präferenzbewertung, dass Annotatoren in über 60 % der Fälle die von LaTCoder generierten Webseiten bevorzugen, was die Wirksamkeit unseres Ansatzes deutlich belegt.
Die Bewertung von Text-zu-Bild-Generierungsmodellen erfordert eine Übereinstimmung mit der menschlichen Wahrnehmung, doch bestehende menschenzentrierte Metriken sind durch begrenzte Datenabdeckung, suboptimale Merkmalsextraktion und ineffiziente Verlustfunktionen eingeschränkt. Um diese Herausforderungen zu bewältigen, führen wir den Human Preference Score v3 (HPSv3) ein. (1) Wir veröffentlichen HPDv3, den ersten breitgefächerten Datensatz für menschliche Präferenzen, der 1,08 Millionen Text-Bild-Paare und 1,17 Millionen annotierte paarweise Vergleiche aus modernsten generativen Modellen sowie realen Bildern von niedriger bis hoher Qualität integriert. (2) Wir stellen ein VLM-basiertes Präferenzmodell vor, das mit einem unsicherheitsbewussten Ranking-Verlust für fein abgestuftes Ranking trainiert wird. Zudem schlagen wir Chain-of-Human-Preference (CoHP) vor, eine iterative Bildverfeinerungsmethode, die die Qualität ohne zusätzliche Daten verbessert, indem HPSv3 verwendet wird, um in jedem Schritt das beste Bild auszuwählen. Umfangreiche Experimente zeigen, dass HPSv3 als robuste Metrik für die breitgefächerte Bildbewertung dient und CoHP einen effizienten und menschenorientierten Ansatz bietet, um die Qualität der Bildgenerierung zu verbessern. Der Code und der Datensatz sind auf der HPSv3-Homepage verfügbar.
In diesem Artikel stellen wir ein neuartiges Framework für die Video-zu-4D-Generierung vor, das hochwertige dynamische 3D-Inhalte aus einzelnen Videoeingaben erzeugt. Die direkte 4D-Diffusionsmodellierung ist aufgrund der aufwändigen Datenerstellung und der hochdimensionalen Natur der gemeinsamen Darstellung von 3D-Form, Erscheinungsbild und Bewegung äußerst anspruchsvoll. Wir adressieren diese Herausforderungen durch die Einführung eines Direct 4DMesh-to-GS Variation Field VAE, der kanonische Gaussian Splats (GS) und ihre zeitlichen Variationen direkt aus 3D-Animationsdaten kodiert, ohne eine pro-Instanz-Anpassung, und hochdimensionale Animationen in einen kompakten latenten Raum komprimiert. Aufbauend auf dieser effizienten Darstellung trainieren wir ein Gaussian Variation Field Diffusionsmodell mit einem zeitlich bewussten Diffusion Transformer, der auf Eingabevideos und kanonische GS konditioniert ist. Unser Modell, das auf sorgfältig kuratierten animierbaren 3D-Objekten aus dem Objaverse-Datensatz trainiert wurde, zeigt eine überlegene Generierungsqualität im Vergleich zu bestehenden Methoden. Es weist auch eine bemerkenswerte Generalisierungsfähigkeit für Videoeingaben aus der realen Welt auf, obwohl es ausschließlich auf synthetischen Daten trainiert wurde, und ebnet den Weg für die Erzeugung hochwertiger animierter 3D-Inhalte. Projektseite: https://gvfdiffusion.github.io/.
Die Video-Virtual-Try-On-Technologie (VVT) hat aufgrund ihrer vielversprechenden Anwendungen im E-Commerce-Werbung und Unterhaltungsbereich erhebliches akademisches Interesse geweckt. Die meisten bestehenden End-to-End-Methoden stützen sich jedoch stark auf knappe, paarweise Datensätze mit Kleidungsfokus und nutzen die Prioritäten fortgeschrittener visueller Modelle und Testzeit-Eingaben nicht effektiv, was es schwierig macht, fein abgestimmte Kleidungsdetails genau zu bewahren und zeitliche Konsistenz in unbegrenzten Szenarien aufrechtzuerhalten. Um diese Herausforderungen zu bewältigen, schlagen wir DreamVVT vor, ein sorgfältig entworfenes zweistufiges Framework, das auf Diffusion Transformers (DiTs) basiert und von Natur aus in der Lage ist, diverse ungepaarte, menschenzentrierte Daten zu nutzen, um die Anpassungsfähigkeit in realen Szenarien zu verbessern. Um Vorwissen aus vortrainierten Modellen und Testzeit-Eingaben weiter zu nutzen, werden im ersten Stadium repräsentative Frames aus dem Eingabevideo ausgewählt und ein Multi-Frame-Try-On-Modell, das mit einem Vision-Language-Modell (VLM) integriert ist, verwendet, um hochauflösende und semantisch konsistente Keyframe-Try-On-Bilder zu synthetisieren. Diese Bilder dienen als ergänzende Erscheinungsführung für die nachfolgende Videogenerierung. Im zweiten Stadium werden Skelettkarten zusammen mit fein abgestimmten Bewegungs- und Erscheinungsbeschreibungen aus dem Eingabeinhalt extrahiert, und diese werden zusammen mit den Keyframe-Try-On-Bildern in ein vortrainiertes Videogenerierungsmodell eingespeist, das mit LoRA-Adaptern verbessert wurde. Dies gewährleistet langfristige zeitliche Kohärenz für ungesehene Regionen und ermöglicht hoch plausible dynamische Bewegungen. Umfangreiche quantitative und qualitative Experimente zeigen, dass DreamVVT bestehende Methoden in der Bewahrung detaillierter Kleidungsinhalte und zeitlicher Stabilität in realen Szenarien übertrifft. Unsere Projektseite https://virtu-lab.github.io/
Konferenzen für Künstliche Intelligenz (KI) sind entscheidend für die Förderung von Forschung, den Wissensaustausch und die Stärkung der akademischen Gemeinschaft. Ihre rasche Expansion hat jedoch das zentralisierte Konferenzmodell zunehmend unhaltbar gemacht. Dieser Artikel bietet eine datengestützte Analyse einer strukturellen Krise, die die grundlegenden Ziele der wissenschaftlichen Verbreitung, Chancengleichheit und des Gemeinschaftswohls bedroht. Wir identifizieren vier zentrale Problembereiche: (1) wissenschaftlich, mit einer Verdoppelung der Publikationsrate pro Autor in den letzten zehn Jahren auf über 4,5 Arbeiten jährlich; (2) ökologisch, mit einem CO₂-Fußabdruck einer einzelnen Konferenz, der die täglichen Emissionen der Gastgeberstadt übersteigt; (3) psychologisch, wobei 71 % des Online-Community-Diskurses negative Stimmung widerspiegeln und 35 % auf psychische Gesundheitsprobleme verweisen; und (4) logistisch, da die Teilnehmerzahlen bei Top-Konferenzen wie NeurIPS 2024 beginnen, die Kapazitäten der Veranstaltungsorte zu übersteigen. Diese Belastungen deuten auf ein System hin, das nicht mehr mit seiner Kernmission im Einklang steht. Als Antwort schlagen wir das Community-Federated Conference (CFC)-Modell vor, das Peer-Review, Präsentation und Networking in global koordinierte, aber lokal organisierte Komponenten aufteilt. Dies bietet einen nachhaltigeren, inklusiveren und widerstandsfähigeren Weg für die KI-Forschung.
Große Sprachmodelle (LLMs) ermöglichen Aufgaben mit langem Kontext, stehen jedoch aufgrund des wachsenden Key-Value (KV)-Caches vor Effizienzproblemen. Wir schlagen LeanK vor, eine lernbasierte Methode, die unwichtige Key (K)-Cache-Kanäle durch die Nutzung statischer Kanalsparsamkeit beschneidet. Mit einem neuartigen zweistufigen Trainingsprozess lernt LeanK kanalweise statische Masken, die ein bestimmtes Sparsamkeitsverhältnis und Hardware-Ausrichtungsanforderungen erfüllen können. LeanK reduziert den GPU-Speicher und beschleunigt die Decodierung, ohne die Genauigkeit zu beeinträchtigen. Experimente zeigen eine Reduktion des K-Caches um bis zu 70 % und des V-Cache-Speichers um 16 %–18 %. Ein benutzerdefinierter Decodierungskernel ermöglicht eine 1,3-fache Beschleunigung der Aufmerksamkeitsberechnung. Wir bieten auch Einblicke in Modellkanäle und Aufmerksamkeitsköpfe während der Inferenz mit langem Kontext durch die Analyse der gelernten Wichtigkeitsverteilung. Unser Code ist verfügbar unter https://aka.ms/LeanK.
Große Sprachmodelle (LLMs) leiden unter einer erheblichen Leistungsverschlechterung bei der Verarbeitung langer Kontexte aufgrund von proaktiver Interferenz, bei der irrelevante Informationen in früheren Teilen des Kontexts das logische Denken und die Gedächtnisabrufe beeinträchtigen. Während sich die meisten Forschungsarbeiten auf externe Speichersysteme konzentrieren, um die Fähigkeiten von LLMs zu erweitern, schlagen wir einen komplementären Ansatz vor: die Ausstattung von LLMs mit Werkzeugen zur aktiven Kontextverwaltung (Active Context Management, ACM), um ihr internes Arbeitsgedächtnis gezielt zu formen. Wir stellen Sculptor vor, ein Framework, das LLMs mit drei Kategorien von Werkzeugen ausstattet: (1) Kontextfragmentierung, (2) Zusammenfassung, Ausblendung und Wiederherstellung sowie (3) intelligente Suche. Unser Ansatz ermöglicht es LLMs, ihre Aufmerksamkeit und ihr Arbeitsgedächtnis proaktiv zu steuern, ähnlich wie Menschen sich selektiv auf relevante Informationen konzentrieren und Ablenkungen ausblenden. Experimentelle Auswertungen auf informationsarmen Benchmarks – PI-LLM (proaktive Interferenz) und NeedleBench Multi-Needle Reasoning – zeigen, dass Sculptor die Leistung selbst ohne spezifisches Training erheblich verbessert, indem es die inhärenten Fähigkeiten von LLMs zur Werkzeugnutzung verallgemeinert. Durch die Ermöglichung aktiver Kontextverwaltung mildert Sculptor nicht nur proaktive Interferenz, sondern schafft auch eine kognitive Grundlage für zuverlässigeres Denken über diverse langkontextbezogene Aufgaben hinweg – und verdeutlicht, dass explizite Kontextkontrollstrategien, und nicht lediglich größere Token-Fenster, der Schlüssel zur Robustheit im großen Maßstab sind.
Autoformalisierung zielt darauf ab, mathematische Aussagen in natürlicher Sprache in eine formale Sprache zu übersetzen. Obwohl LLMs den Fortschritt in diesem Bereich beschleunigt haben, leiden bestehende Methoden immer noch unter geringer Genauigkeit. Wir identifizieren zwei Schlüsselfähigkeiten für eine effektive Autoformalierung: umfassende Beherrschung des Domänenwissens der formalen Sprache und die Fähigkeit, natürliche Sprache zu verstehen und informelle mit formalen Aussagen in Einklang zu bringen. Ohne erstere kann ein Modell die korrekten formalen Objekte nicht identifizieren; ohne letztere hat es Schwierigkeiten, reale Kontexte zu interpretieren und sie präzise in formale Ausdrücke abzubilden. Um diese Lücken zu schließen, stellen wir ThinkingF vor, eine Pipeline zur Datensynthese und zum Training, die beide Fähigkeiten verbessert. Zunächst erstellen wir zwei Datensätze: einen durch Destillation und Auswahl groß angelegter Beispiele, die reich an formalem Wissen sind, und einen anderen durch die Generierung von informell-zu-formal-Schlussfolgerungspfaden, die von Experten entworfenen Vorlagen folgen. Anschließend wenden wir SFT und RLVR mit diesen Datensätzen an, um beide Fähigkeiten weiter zu verschmelzen und zu verfeinern. Die resultierenden 7B- und 32B-Modelle zeigen sowohl umfassendes formales Wissen als auch starke informell-zu-formal-Schlussfolgerungsfähigkeiten. Bemerkenswerterweise erreicht StepFun-Formalizer-32B SOTA BEq@1-Werte von 40,5 % auf FormalMATH-Lite und 26,7 % auf ProverBench und übertrifft damit alle bisherigen allgemeinen und spezialisierten Modelle.
Große Sprachmodelle ermöglichen es Agenten, Aufgaben in offenen Webumgebungen autonom auszuführen. Da sich jedoch versteckte Bedrohungen im Web weiterentwickeln, stehen Webagenten vor der Herausforderung, die Aufgabenleistung mit den aufkommenden Risiken während langwieriger Operationen in Einklang zu bringen. Obwohl diese Herausforderung entscheidend ist, beschränkt sich die aktuelle Forschung auf die Einzelzieloptimierung oder Einzelszenarien und verfügt nicht über die Fähigkeit, Sicherheit und Nutzen in Webumgebungen gemeinsam zu optimieren. Um diese Lücke zu schließen, schlagen wir HarmonyGuard vor, ein Multi-Agenten-Kollaborationsframework, das durch Politikverbesserung und Zieloptimierung sowohl den Nutzen als auch die Sicherheit gemeinsam verbessert. HarmonyGuard zeichnet sich durch eine Multi-Agenten-Architektur aus, die durch zwei grundlegende Fähigkeiten charakterisiert ist: (1) Adaptive Politikverbesserung: Wir führen den Policy Agent innerhalb von HarmonyGuard ein, der automatisch strukturierte Sicherheitsrichtlinien aus unstrukturierten externen Dokumenten extrahiert und pflegt, während er die Richtlinien kontinuierlich an die sich entwickelnden Bedrohungen anpasst. (2) Duale Zieloptimierung: Basierend auf den dualen Zielen von Sicherheit und Nutzen führt der in HarmonyGuard integrierte Utility Agent eine Markovsche Echtzeit-Argumentation durch, um die Ziele zu bewerten, und nutzt metakognitive Fähigkeiten zu deren Optimierung. Umfangreiche Bewertungen auf mehreren Benchmarks zeigen, dass HarmonyGuard die Richtlinienkonformität um bis zu 38 % und die Aufgabenabschlussrate um bis zu 20 % gegenüber bestehenden Baselines verbessert, während es eine Richtlinienkonformität von über 90 % bei allen Aufgaben erreicht. Unser Projekt ist hier verfügbar: https://github.com/YurunChen/HarmonyGuard.
Aktuelle Ansätze für große Audio-Sprachmodelle (LALMs) basieren häufig auf geschlossenen Datenquellen oder proprietären Modellen, was ihre Generalisierbarkeit und Zugänglichkeit einschränkt. Dieses Papier stellt MiDashengLM vor, ein neuartiges offenes Audio-Sprachmodell, das für ein effizientes und umfassendes Audioverständnis durch die Verwendung allgemeiner Audio-Beschreibungen mithilfe unseres neuartigen ACAVCaps-Trainingsdatensatzes entwickelt wurde. MiDashengLM stützt sich ausschließlich auf öffentlich verfügbare Vorabtrainings- und überwachte Feinabstimmungsdatensätze (SFT), wodurch vollständige Transparenz und Reproduzierbarkeit gewährleistet werden. Im Kern integriert MiDashengLM Dasheng, einen Open-Source-Audio-Encoder, der speziell dafür entwickelt wurde, diverse auditive Informationen effektiv zu verarbeiten. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Audio-Text-Ausrichtung basierend auf automatischer Spracherkennung (ASR) konzentrierten, zentriert sich unsere Strategie auf allgemeine Audio-Beschreibungen, die Sprach-, Klang- und Musikinformationen in einer textuellen Darstellung vereinen und somit eine ganzheitliche textuelle Repräsentation komplexer Audioszenen ermöglichen. Schließlich bietet MiDashengLM eine bis zu 4-fache Beschleunigung in Bezug auf die Zeit bis zum ersten Token (TTFT) und einen bis zu 20-fach höheren Durchsatz im Vergleich zu ähnlichen Modellen. Checkpoints sind online verfügbar unter https://huggingface.co/mispeech/midashenglm-7b und https://github.com/xiaomi-research/dasheng-lm.
Die Instanzsegmentierung ist in der biomedizinischen Bildgebung entscheidend, um einzelne Objekte wie Zellen, die sich häufig überlappen und in ihrer Größe variieren, präzise zu unterscheiden. Neuere, abfragebasierte Methoden, bei denen Objektabfragen die Segmentierung steuern, haben eine starke Leistung gezeigt. Während U-Net eine etablierte Architektur in der medizinischen Bildsegmentierung ist, bleibt sein Potenzial in abfragebasierten Ansätzen weitgehend unerforscht. In dieser Arbeit präsentieren wir IAUNet, eine neuartige abfragebasierte U-Net-Architektur. Das Kernkonzept umfasst eine vollständige U-Net-Architektur, die durch einen neuartigen, leichtgewichtigen konvolutionellen Pixel-Decoder erweitert wird, wodurch das Modell effizienter wird und die Anzahl der Parameter reduziert wird. Zusätzlich schlagen wir einen Transformer-Decoder vor, der objektspezifische Merkmale über mehrere Skalen hinweg verfeinert. Schließlich stellen wir das 2025 Revvity Full Cell Segmentation Dataset vor, eine einzigartige Ressource mit detaillierten Annotationen von sich überlappenden Zellzytoplasmen in Hellfeldbildern, die einen neuen Maßstab für die biomedizinische Instanzsegmentierung setzt. Experimente auf mehreren öffentlichen Datensätzen sowie unseren eigenen zeigen, dass IAUNet die meisten state-of-the-art vollständig konvolutionellen, transformerbasierten und abfragebasierten Modelle sowie zellspezifische Segmentierungsmodelle übertrifft und somit eine solide Grundlage für Zellinstanzsegmentierungsaufgaben schafft. Der Code ist verfügbar unter https://github.com/SlavkoPrytula/IAUNet.
Named-Entity Recognition (NER) ist grundlegend für die Extraktion strukturierter Informationen aus den >80 % der Gesundheitsdaten, die in unstrukturierten klinischen Notizen und biomedizinischer Literatur enthalten sind. Trotz jüngster Fortschritte bei großen Sprachmodellen bleibt die Erreichung von Spitzenleistungen über verschiedene Entitätstypen hinweg bei gleichzeitiger Wahrung der Recheneffizienz eine erhebliche Herausforderung. Wir stellen OpenMed NER vor, eine Suite von Open-Source-Transformer-Modellen, die domänenadaptives Pre-Training (DAPT) mit parameter-effizienter Low-Rank Adaptation (LoRA) kombinieren. Unser Ansatz führt kosteneffizientes DAPT auf einem Korpus von 350.000 Passagen durch, der aus ethisch einwandfreien, öffentlich zugänglichen Forschungsrepositorien und anonymisierten klinischen Notizen (PubMed, arXiv und MIMIC-III) zusammengestellt wurde, wobei DeBERTa-v3, PubMedBERT und BioELECTRA als Backbones verwendet werden. Darauf folgt eine aufgabenspezifische Feinabstimmung mit LoRA, die weniger als 1,5 % der Modellparameter aktualisiert. Wir evaluieren unsere Modelle anhand von 12 etablierten biomedizinischen NER-Benchmarks, die Chemikalien, Krankheiten, Gene und Spezies abdecken. OpenMed NER erreicht neue Spitzenwerte bei den Mikro-F1-Scores auf 10 dieser 12 Datensätze, mit erheblichen Verbesserungen über verschiedene Entitätstypen hinweg. Unsere Modelle setzen neue Maßstäbe bei grundlegenden Benchmarks für Krankheiten und Chemikalien (z. B. BC5CDR-Disease, +2,70 Prozentpunkte), während sie noch größere Verbesserungen von über 5,3 und 9,7 Prozentpunkten auf spezialisierteren Gen- und klinischen Zelllinien-Korpora erzielen. Diese Arbeit zeigt, dass strategisch angepasste Open-Source-Modelle proprietäre Lösungen übertreffen können. Diese Leistung wird mit bemerkenswerter Effizienz erreicht: Das Training dauert weniger als 12 Stunden auf einer einzelnen GPU mit einem geringen CO2-Fußabdruck (< 1,2 kg CO2e) und produziert Open-Source-Checkpoints mit freizügigen Lizenzen, die Praktikern dabei helfen sollen, die Einhaltung neuer Datenschutz- und KI-Regulierungen wie dem EU-KI-Gesetz zu erleichtern.
Rusts Garantien für Sicherheit zur Kompilierzeit machen es ideal für sicherheitskritische Systeme, was die Nachfrage nach der Übersetzung von Legacy-C-Codebasen in Rust erhöht. Obwohl verschiedene Ansätze für diese Aufgabe entstanden sind, stehen sie vor inhärenten Kompromissen: regelbasierte Lösungen haben Schwierigkeiten, die Anforderungen an Code-Sicherheit und Idiomatizität zu erfüllen, während LLM-basierte Lösungen oft daran scheitern, semantisch äquivalenten Rust-Code zu generieren, aufgrund der starken Abhängigkeiten von Modulen über die gesamte Codebasis hinweg. Aktuelle Studien haben gezeigt, dass beide Lösungen auf kleine Programme beschränkt sind. In diesem Artikel schlagen wir EvoC2Rust vor, ein automatisiertes Framework zur Konvertierung gesamter C-Projekte in äquivalente Rust-Projekte. EvoC2Rust verwendet eine skelettgesteuerte Übersetzungsstrategie für die Übersetzung auf Projektebene. Die Pipeline besteht aus drei evolutionären Phasen: 1) Zunächst zerlegt es das C-Projekt in funktionale Module, verwendet ein feature-mapping-verstärktes LLM, um Definitionen und Makros zu transformieren, und generiert typgeprüfte Funktionsstubs, die ein kompilierbares Rust-Skelett bilden; 2) Anschließend übersetzt es die Funktion schrittweise und ersetzt den entsprechenden Stub-Platzhalter; 3) Schließlich behebt es Kompilierungsfehler durch die Integration von LLM und statischer Analyse. Durch evolutionäre Erweiterung kombiniert EvoC2Rust die Vorteile sowohl regelbasierter als auch LLM-basierter Lösungen. Unsere Bewertung auf Open-Source-Benchmarks und sechs industriellen Projekten demonstriert die überlegene Leistung von EvoC2Rust bei der projektbasierten C-zu-Rust-Übersetzung. Im Durchschnitt erreicht es Verbesserungen von 17,24 % und 14,32 % in der Syntax- und Semantikgenauigkeit gegenüber den LLM-basierten Ansätzen sowie eine 96,79 % höhere Code-Sicherheitsrate als die regelbasierten Tools. Auf Modulebene erreicht EvoC2Rust Kompilierungs- und Testdurchlaufraten von 92,25 % bzw. 89,53 % bei industriellen Projekten, selbst für komplexe Codebasen und lange Funktionen.
Wir präsentieren DPoser-X, ein diffusionsbasiertes Prior-Modell für 3D-Ganzkörper-Posen des Menschen. Die Entwicklung eines vielseitigen und robusten Prior-Modells für die gesamte menschliche Körperhaltung bleibt aufgrund der inhärenten Komplexität artikulierter menschlicher Posen und der Knappheit hochwertiger Ganzkörper-Posendatensätze eine Herausforderung. Um diese Einschränkungen zu adressieren, führen wir ein Diffusionsmodell als Körperposen-Prior (DPoser) ein und erweitern es zu DPoser-X für die expressive Modellierung von Ganzkörper-Posen. Unser Ansatz vereint verschiedene posenzentrierte Aufgaben als inverse Probleme und löst sie durch variationsbasierte Diffusionssammlung. Um die Leistung in nachgelagerten Anwendungen zu verbessern, führen wir eine neuartige Methode zur zeitgestuften Planung ein, die speziell auf die Eigenschaften von Posendaten zugeschnitten ist. Zudem schlagen wir einen maskierten Trainingsmechanismus vor, der Ganzkörper- und teilbezogene Datensätze effektiv kombiniert, wodurch unser Modell die Interdependenzen zwischen Körperteilen erfassen kann, ohne sich auf spezifische Bewegungen zu spezialisieren. Umfangreiche Experimente demonstrieren die Robustheit und Vielseitigkeit von DPoser-X über mehrere Benchmarks hinweg für die Modellierung von Körper-, Hand-, Gesichts- und Ganzkörper-Posen. Unser Modell übertrifft durchweg state-of-the-art Alternativen und setzt einen neuen Maßstab für die Prior-Modellierung von Ganzkörper-Posen des Menschen.
Reinforcement Learning mit verifizierbarer Belohnung (RLVR) hat die komplexen Denkfähigkeiten von Large Language Models (LLMs) erheblich vorangetrieben. Es hat jedoch Schwierigkeiten, die inhärenten Fähigkeitsgrenzen des Basismodells zu überwinden, da es im Wesentlichen eine On-Policy-Strategie verwendet, die mit dem immensen Aktionsraum und der spärlichen Belohnung von LLMs kombiniert ist. Kritisch ist, dass RLVR zu einem Zusammenbruch der Fähigkeitsgrenzen führen kann, wodurch der Problemlösungsbereich des LLMs eingeschränkt wird. Um dieses Problem zu lösen, schlagen wir RL-PLUS vor, einen neuartigen hybriden Policy-Optimierungsansatz für LLMs, der interne Ausnutzung mit externen Daten kombiniert, um stärkere Denkfähigkeiten zu erreichen und die Grenzen der Basismodelle zu überschreiten. RL-PLUS integriert zwei Kernkomponenten, nämlich Multiple Importance Sampling, um die Verteilungsabweichung durch externe Daten zu adressieren, und eine explorationsbasierte Vorteilsfunktion, um das Modell auf hochwertige, unerforschte Denkpfade zu lenken. Wir liefern sowohl theoretische Analysen als auch umfangreiche Experimente, um die Überlegenheit und Generalisierbarkeit unseres Ansatzes zu demonstrieren. Im Vergleich zu bestehenden RLVR-Methoden erreicht RL-PLUS 1) state-of-the-art Leistung auf sechs mathematischen Denkbenchmarks; 2) überlegene Leistung bei sechs Out-of-Distribution-Denkaufgaben; 3) konsistente und signifikante Verbesserungen über verschiedene Modellfamilien hinweg, mit durchschnittlichen relativen Verbesserungen von bis zu 69,2\%. Darüber hinaus zeigt die Analyse der Pass@k-Kurven, dass RL-PLUS das Problem des Zusammenbruchs der Fähigkeitsgrenzen effektiv löst.
Visuelle Verankerung zielt darauf ab, Objekte oder Regionen in einer Szene basierend auf natürlichen Sprachbeschreibungen zu identifizieren, was für eine räumlich bewusste Wahrnehmung im autonomen Fahren entscheidend ist. Bisherige Aufgaben zur visuellen Verankerung basieren jedoch typischerweise auf Begrenzungsrahmen, die oft feinere Details nicht erfassen können. Nicht alle Voxel innerhalb eines Begrenzungsrahmens sind belegt, was zu ungenauen Objektdarstellungen führt. Um dies zu beheben, führen wir einen Benchmark für die 3D-Belegungsverankerung in anspruchsvollen Außenszenen ein. Basierend auf dem nuScenes-Datensatz integriert er natürliche Sprache mit Voxel-genauen Belegungsannotationen und bietet im Vergleich zur traditionellen Verankerungsaufgabe eine präzisere Objektwahrnehmung. Darüber hinaus schlagen wir GroundingOcc vor, ein End-to-End-Modell, das für die 3D-Belegungsverankerung durch multimodales Lernen entwickelt wurde. Es kombiniert visuelle, textuelle und Punktwolkenmerkmale, um die Objektposition und Belegungsinformationen von grob bis fein vorherzusagen. Insbesondere besteht GroundingOcc aus einem multimodalen Encoder zur Merkmalsextraktion, einem Belegungskopf für Voxel-genaue Vorhersagen und einem Verankerungskopf zur Verfeinerung der Lokalisierung. Zusätzlich verbessern ein 2D-Verankerungsmodul und ein Tiefenschätzungsmodul das geometrische Verständnis und steigern so die Modellleistung. Umfangreiche Experimente auf dem Benchmark zeigen, dass unsere Methode bestehende Baselines bei der 3D-Belegungsverankerung übertrifft. Der Datensatz ist unter https://github.com/RONINGOD/GroundingOcc verfügbar.
Die Bewertung der Langform-Faktizität beurteilt die Fähigkeit von Modellen, präzise und umfassende Antworten auf kurze Eingabeaufforderungen zu generieren. Bestehende Benchmarks weisen oft eine fehlende menschliche Überprüfung auf, was zu potenziellen Qualitätsproblemen führen kann. Um diese Einschränkung zu überwinden, führen wir FACTORY ein, einen groß angelegten, menschlich verifizierten Satz von Eingabeaufforderungen. FACTORY wurde mithilfe eines Modell-in-the-Loop-Ansatzes entwickelt und durch menschliche Bearbeitung verfeinert. Es umfasst anspruchsvolle Eingabeaufforderungen, die faktenorientiert, beantwortbar und eindeutig sind. Wir führen menschliche Bewertungen an 6 state-of-the-art-Sprachmodellen durch, wobei FACTORY und bestehende Datensätze verwendet werden. Unsere Ergebnisse zeigen, dass FACTORY ein anspruchsvoller Benchmark ist: etwa 40 % der Behauptungen in den Antworten der SOTA-Modelle sind nicht faktisch korrekt, verglichen mit nur 10 % bei anderen Datensätzen. Unsere Analyse hebt die Stärken von FACTORY gegenüber früheren Benchmarks hervor und betont dessen Zuverlässigkeit sowie die Notwendigkeit für Modelle, über langschwänzige Fakten hinweg zu schlussfolgern.
Die Ursachenanalyse (Root Cause Analysis, RCA) in Mobilfunknetzen bleibt aufgrund der Anforderungen an Interpretierbarkeit, Domänenexpertise und kausale Schlussfolgerungen eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir ein leichtgewichtiges Framework vor, das Large Language Models (LLMs) für die RCA nutzt. Hierfür führen wir TeleLogs ein, einen kuratierten Datensatz annotierter Problembehandlungsfälle, der dazu dient, die Fähigkeiten zur RCA zu bewerten. Unsere Auswertung zeigt, dass bestehende Open-Source-LLMs mit diesen Problemen kämpfen, was den Bedarf an domänenspezifischer Anpassung unterstreicht. Um dieses Problem zu adressieren, schlagen wir eine zweistufige Trainingsmethodik vor, die überwachtes Fein-Tuning mit bestärkendem Lernen kombiniert, um die Genauigkeit und die Qualität der Schlussfolgerungen von LLMs zu verbessern. Der vorgeschlagene Ansatz feinjustiert eine Reihe von RCA-Modellen, um Domänenwissen zu integrieren und strukturierte, mehrstufige Diagnoseerklärungen zu generieren, wodurch sowohl die Interpretierbarkeit als auch die Effektivität verbessert werden. Umfangreiche Experimente über verschiedene LLM-Größen hinweg zeigen signifikante Leistungssteigerungen gegenüber state-of-the-art Schlussfolgerungs- und Nicht-Schlussfolgerungsmodellen, einschließlich einer starken Generalisierung auf randomisierte Testvarianten. Diese Ergebnisse demonstrieren das Potenzial von domänenangepassten, schlussfolgerungsgestärkten LLMs für praktische und erklärbare RCA in der Netzwerkbetriebsführung und -verwaltung.
Autonomes Fahren erfordert ein präzises Verständnis der Szene, einschließlich der Straßengeometrie, der Verkehrsteilnehmer und ihrer semantischen Beziehungen. In Szenarien zur Online-Generierung von HD-Karten eignen sich rasterbasierte Darstellungen gut für Vision-Modelle, weisen jedoch eine mangelnde geometrische Präzision auf, während graphenbasierte Darstellungen strukturelle Details bewahren, jedoch ohne präzise Karten instabil werden. Um die komplementären Stärken beider Ansätze zu nutzen, schlagen wir DiffSemanticFusion vor – ein Fusionsframework für multimodale Trajektorienvorhersage und Planung. Unser Ansatz arbeitet in einem semantischen, rasterfusionierten BEV-Raum, der durch ein Karten-Diffusionsmodul erweitert wird, das sowohl die Stabilität als auch die Ausdrucksfähigkeit von Online-HD-Kartendarstellungen verbessert. Wir validieren unser Framework anhand von zwei nachgelagerten Aufgaben: Trajektorienvorhersage und end-to-end autonomes Fahren mit Planungsorientierung. Experimente auf realen Benchmark-Datensätzen für autonomes Fahren, nuScenes und NAVSIM, zeigen eine verbesserte Leistung gegenüber mehreren state-of-the-art Methoden. Für die Vorhersageaufgabe auf nuScenes integrieren wir DiffSemanticFusion mit dem Online-HD-Karten-informierten QCNet und erzielen eine Leistungssteigerung von 5,1 %. Für end-to-end autonomes Fahren in NAVSIM erreicht DiffSemanticFusion state-of-the-art Ergebnisse mit einer Leistungssteigerung von 15 % in NavHard-Szenarien. Darüber hinaus zeigen umfangreiche Ablations- und Sensitivitätsstudien, dass unser Karten-Diffusionsmodul nahtlos in andere vektorbasierte Ansätze integriert werden kann, um deren Leistung zu verbessern. Alle Artefakte sind verfügbar unter https://github.com/SunZhigang7/DiffSemanticFusion.
Text-to-3D (T23D)-Generierung hat die digitale Inhaltserstellung revolutioniert, bleibt jedoch durch blinde Trial-and-Error-Prompting-Prozesse eingeschränkt, die unvorhersehbare Ergebnisse liefern. Während die visuelle Prompt-Engineering-Technik in Text-zu-Bild-Domänen Fortschritte gemacht hat, stellt ihre Anwendung auf die 3D-Generierung einzigartige Herausforderungen dar, die eine Multi-View-Konsistenzbewertung und räumliches Verständnis erfordern. Wir präsentieren Sel3DCraft, ein visuelles Prompt-Engineering-System für T23D, das unstrukturierte Exploration in einen geführten visuellen Prozess transformiert. Unser Ansatz führt drei Schlüsselinnovationen ein: eine Dual-Branch-Struktur, die Retrieval und Generierung kombiniert, um die Exploration vielfältiger Kandidaten zu ermöglichen; ein Multi-View-Hybrid-Scoring-Ansatz, der MLLMs mit innovativen High-Level-Metriken nutzt, um 3D-Modelle mit menschlicher Expertenkonsistenz zu bewerten; sowie eine Prompt-gesteuerte visuelle Analyselösung, die eine intuitive Fehleridentifikation und -verfeinerung ermöglicht. Umfangreiche Tests und Nutzerstudien zeigen, dass Sel3DCraft andere T23D-Systeme in der Unterstützung der Kreativität von Designern übertrifft.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verbessert die Fähigkeiten großer Sprachmodelle (LLMs), Anweisungen zu befolgen, leidet jedoch unter Ineffizienz im Training aufgrund unzureichender Schwierigkeitsbewertung. Darüber hinaus neigt RLVR zur Überoptimierung, bei der LLMs Verifikationsabkürzungen ausnutzen, ohne sich an die eigentliche Absicht der Benutzeranweisungen zu halten. Wir stellen den Instruction Following Decorator (IFDecorator) vor, ein Framework, das das RLVR-Training in eine robuste und probeneffiziente Pipeline einbettet. Es besteht aus drei Komponenten: (1) einem kooperativ-adversarischen Datenflywheel, das Anweisungen und hybride Verifikationen gemeinsam weiterentwickelt und zunehmend anspruchsvollere Anweisungs-Verifikations-Paare erzeugt; (2) IntentCheck, ein Bypass-Modul, das die Absichtsausrichtung erzwingt; und (3) Stolperdrähte, ein Diagnosemechanismus, der Belohnungshacking durch Fallenanweisungen erkennt, die Ausnutzungsverhalten von Abkürzungen auslösen und erfassen. Unser Qwen2.5-32B-Instruct-IFDecorator erreicht eine Genauigkeit von 87,43 % auf IFEval und übertrifft damit größere proprietäre Modelle wie GPT-4o. Zudem zeigen wir erhebliche Verbesserungen auf FollowBench bei gleichzeitiger Bewahrung der allgemeinen Fähigkeiten. Unsere Stolperdrähte zeigen signifikante Reduktionen der Belohnungshacking-Raten. Wir werden Modelle, Code und Daten für zukünftige Forschung veröffentlichen.
Während die Fortschritte in den Fähigkeiten von LLMs (Large Language Models) zur logischen Schlussfolgerung ihre Leistung bei der Lösung mathematischer Probleme, Programmieraufgaben und allgemeiner Rätsel erheblich verbessert haben, bleibt ihre Effektivität bei der präzisen Befolgung von Anweisungen insbesondere bei komplexeren Anweisungen inkonsistent. Unsere Untersuchung identifiziert nachlässiges Denken während der Denkphase als den Hauptfaktor, der zu einer schlechten Anweisungsbefolgung führt. Um dieses Problem zu mildern, schlagen wir ein umfassendes Framework vor, das rigorose Denkprozesse mit Vorausschau und Selbstüberprüfung ermöglicht, die für die Einhaltung strenger Anweisungsbedingungen unerlässlich sind. Konkret generieren wir zunächst Anweisungen mit komplexen Bedingungen und wenden einen Filterprozess an, um gültige Prompts zu erhalten, was zu drei verschiedenen Prompt-Datensätzen führt, die als schwer, einfach und passend kategorisiert sind. Anschließend verwenden wir Rejection Sampling auf den passenden Prompts, um einen kleinen, aber hochwertigen Datensatz zu erstellen, der eine Kaltstart-Initialisierung des Modells ermöglicht und dessen Anpassung an effektive Denkmuster erleichtert. Danach setzen wir eine entropieerhaltende überwachte Feinabstimmung (Entropy-SFT) in Kombination mit tokenweiser entropieadaptiver (TEA-RL) Verstärkungslernung ein, die durch regelbasierte dichte Belohnungen geleitet wird. Dieser Ansatz ermutigt das Modell, seinen Denkmechanismus zu transformieren, wodurch letztendlich generalisierbare Denkfähigkeiten gefördert werden, die Vorausschau und Selbstüberprüfung umfassen. Umfangreiche Experimente auf Benchmarks zur Anweisungsbefolgung zeigen bemerkenswerte Leistungsverbesserungen über verschiedene Modellgrößen hinweg. Insbesondere übertrifft unser Light-IF-32B-Modell sowohl größere Open-Source-Modelle wie DeepSeek-R1 als auch Closed-Source-Modelle wie Doubao-1.6.
Die 3D-Anomalieerkennung (AD) hat großes Potenzial bei der Erkennung von Anomalien oder Defekten in hochpräzisen Industrieprodukten gezeigt. Bestehende Methoden werden jedoch typischerweise klassen-spezifisch trainiert und verfügen nicht über die Fähigkeit, aus neu auftretenden Klassen zu lernen. In dieser Studie schlagen wir ein kontinuierliches Lernframework namens Continual 3D Anomaly Detection (C3D-AD) vor, das nicht nur generalisierte Repräsentationen für multi-klassige Punktwolken lernen kann, sondern auch neue Klassen, die im Laufe der Zeit auftreten, verarbeiten kann. Insbesondere wird im Merkmalsextraktionsmodul die Kernel Attention mit zufälliger Merkmalschicht (KAL) eingeführt, um generalisierte lokale Merkmale aus verschiedenen Produkttypen unterschiedlicher Aufgaben effizient zu extrahieren und den Merkmalsraum zu normalisieren. Um Daten korrekt und kontinuierlich zu rekonstruieren, wird ein effizienter Kernel Attention mit lernbarem Advisor (KAA)-Mechanismus vorgeschlagen, der Informationen aus neuen Kategorien lernt, während redundante alte Informationen sowohl im Encoder als auch im Decoder verworfen werden. Schließlich wird zur Aufrechterhaltung der Repräsentationskonsistenz über Aufgaben hinweg ein Reconstruction with Parameter Perturbation (RPP)-Modul vorgeschlagen, indem eine Repräsentationswiederholungsverlustfunktion entworfen wird, die sicherstellt, dass das Modell vorherige Kategorieninformationen behält und kategorie-adaptive Repräsentationen zurückgibt. Umfangreiche Experimente auf drei öffentlichen Datensätzen demonstrieren die Effektivität der vorgeschlagenen Methode, die durchschnittliche Leistungen von 66,4 %, 83,1 % und 63,4 % AUROC auf Real3D-AD, Anomaly-ShapeNet und MulSen-AD erzielt.
In diesem Artikel behandeln wir Ansätze zur systematischen Steuerung, Bewertung und Quantifizierung von Verzerrungen über den gesamten Lebenszyklus von Machine-Learning-Modellen hinweg – von der anfänglichen Entwicklung und Validierung bis hin zur kontinuierlichen Produktionsüberwachung und der Implementierung von Schutzmaßnahmen. Aufbauend auf unserer grundlegenden Arbeit zum Bias Evaluation and Assessment Test Suite (BEATS) für Large Language Models teilen die Autoren verbreitete Lücken im Zusammenhang mit Verzerrungen und Fairness in Large Language Models (LLMs) und diskutieren ein Daten- und KI-Governance-Framework, um Verzerrungen, Ethik, Fairness und Faktentreue in LLMs zu adressieren. Der in diesem Artikel diskutierte Daten- und KI-Governance-Ansatz eignet sich für praktische, reale Anwendungen und ermöglicht eine rigorose Benchmarking von LLMs vor der Produktionsbereitstellung, erleichtert die kontinuierliche Echtzeitbewertung und steuert proaktiv die von LLMs generierten Antworten. Durch die Implementierung der Daten- und KI-Governance über den gesamten Lebenszyklus der KI-Entwicklung hinweg können Organisationen die Sicherheit und Verantwortung ihrer GenAI-Systeme erheblich verbessern, Risiken der Diskriminierung effektiv mindern und potenzielle reputations- oder markenbezogene Schäden abwehren. Letztendlich zielen wir mit diesem Artikel darauf ab, einen Beitrag zur Weiterentwicklung der Erstellung und Bereitstellung von sozial verantwortungsvollen und ethisch ausgerichteten, generativen KI-gestützten Anwendungen zu leisten.
Musikaufnahmen leiden oft unter Audioqualitätsproblemen wie übermäßigem Hall, Verzerrungen, Clipping, tonalen Ungleichgewichten und einem verengten Stereobild, insbesondere wenn sie in nicht-professionellen Umgebungen ohne spezielle Ausrüstung oder Expertise erstellt werden. Diese Probleme werden typischerweise mit separaten spezialisierten Tools und manuellen Anpassungen korrigiert. In diesem Artikel stellen wir SonicMaster vor, das erste einheitliche generative Modell für die Musikrestaurierung und -mastering, das ein breites Spektrum von Audioartefakten mit textbasierter Steuerung behandelt. SonicMaster wird durch natürliche Sprachbefehle konditioniert, um gezielte Verbesserungen vorzunehmen, oder kann in einem automatischen Modus für die allgemeine Restaurierung arbeiten. Um dieses Modell zu trainieren, erstellen wir den SonicMaster-Datensatz, einen großen Datensatz von gepaarten degradierten und hochwertigen Tracks, indem wir häufige Degradationstypen mit neunzehn Degradationsfunktionen aus fünf Verbesserungsgruppen simulieren: Equalization, Dynamik, Hall, Amplitude und Stereo. Unser Ansatz nutzt ein Flow-Matching-generatives Trainingsparadigma, um eine Audiotransformation zu erlernen, die degradierte Eingaben in ihre bereinigten, gemasterten Versionen abbildet, die durch Textbefehle gesteuert werden. Objektive Audioqualitätsmetriken zeigen, dass SonicMaster die Klangqualität in allen Artefaktkategorien erheblich verbessert. Darüber hinaus bestätigen subjektive Hörtests, dass Hörer die verbesserten Ausgaben von SonicMaster gegenüber dem ursprünglichen degradierten Audio bevorzugen, was die Effektivität unseres einheitlichen Ansatzes unterstreicht.
Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Erzeugung künstlerischer Inhalte demonstriert, indem sie aus Milliarden von Bildern, einschließlich populärer Kunstwerke, lernen. Die grundlegende Frage, wie diese Modelle intern Konzepte wie Inhalt und Stil in Gemälden repräsentieren, bleibt jedoch unerforscht. Die traditionelle Computer Vision geht davon aus, dass Inhalt und Stil orthogonal sind, doch Diffusionsmodelle erhalten während des Trainings keine explizite Anleitung zu dieser Unterscheidung. In dieser Arbeit untersuchen wir, wie transformerbasierte Text-to-Image-Diffusionsmodelle Inhalts- und Stilkonzepte kodieren, wenn sie Kunstwerke erzeugen. Wir nutzen Cross-Attention-Heatmaps, um Pixel in generierten Bildern bestimmten Prompt-Tokens zuzuordnen, wodurch wir Bildregionen isolieren können, die durch inhaltsbeschreibende oder stilbeschreibende Tokens beeinflusst werden. Unsere Ergebnisse zeigen, dass Diffusionsmodelle je nach spezifischem künstlerischen Prompt und angefordertem Stil unterschiedliche Grade der Trennung von Inhalt und Stil aufweisen. In vielen Fällen beeinflussen Inhalts-Tokens hauptsächlich objektbezogene Regionen, während Stil-Tokens Hintergrund- und Texturbereiche beeinflussen, was auf ein emergentes Verständnis der Unterscheidung zwischen Inhalt und Stil hindeutet. Diese Erkenntnisse tragen zu unserem Verständnis bei, wie großskalige generative Modelle komplexe künstlerische Konzepte ohne explizite Überwachung intern repräsentieren. Wir teilen den Code und den Datensatz zusammen mit einem explorativen Tool zur Visualisierung von Attention-Maps unter https://github.com/umilISLab/artistic-prompt-interpretation.