papers.description
Diffusions-Sprachmodelle versprechen eine schnelle parallele Generierung, während autoregressive (AR) Modelle typischerweise aufgrund ihrer kausalen Struktur, die sich natürlich mit Sprachmodellierung deckt, in der Qualität überzeugen. Dies wirft eine grundlegende Frage auf: Können wir eine Synergie mit hohem Durchsatz, höherer GPU-Auslastung und AR-Qualität erreichen? Bisherige Methoden schaffen es nicht, diese beiden Aspekte effektiv auszubalancieren. Sie priorisieren entweder AR, indem sie ein schwächeres Modell für sequenzielles Entwerfen verwenden (spekulatives Decodieren), was zu einer geringeren Entwurfseffizienz führt, oder sie verwenden eine Form von Links-nach-rechts (AR-ähnlicher) Decodierlogik für Diffusion, was immer noch unter Qualitätseinbußen leidet und ihr paralleles Potenzial verschenkt. Wir stellen TiDAR vor, eine hybride Architektur auf Sequenzebene, die Token (Denken) per Diffusion entwirft und endgültige Ausgaben (Sprechen) autoregressiv sampelt – alles innerhalb eines einzigen Vorwärtsdurchlaufs mittels speziell gestalteter strukturierter Attention-Masken. Dieses Design macht sich die verfügbare GPU-Rechenleistung zunutze und erreicht eine starke Balance zwischen Entwurfs- und Verifikationskapazität. Darüber hinaus ist TiDAR als eigenständiges Modell servicetauglich (geringer Overhead) konzipiert. Wir evaluieren TiDAR umfassend gegen AR-Modelle, spekulatives Decodieren und Diffusionsvarianten in Generierungs- und Likelihood-Aufgaben bei 1,5B und 8B Parametern. Dank des parallelen Entwerfens und Samplings sowie der Unterstützung exaktem KV-Cachings übertrifft TiDAR den gemessenen Durchsatz von spekulativem Decodieren und übertrifft Diffusionsmodelle wie Dream und Llada sowohl in Effizienz als auch Qualität. Besonders bemerkenswert ist, dass TiDAR die erste Architektur ist, die die Qualitätslücke zu AR-Modellen schließt und dabei 4,71x bis 5,91x mehr Token pro Sekunde liefert.
Wir stellen Lumine vor, das erste offene Rezept zur Entwicklung von Generalisten-Agenten, die in der Lage sind, stundenlange komplexe Missionen in Echtzeit in anspruchsvollen 3D-Open-World-Umgebungen zu absolvieren. Lumine nutzt ein menschenähnliches Interaktionsparadigma, das Wahrnehmung, Denken und Handeln auf End-to-End-Basis vereint und durch ein Vision-Sprache-Modell angetrieben wird. Es verarbeitet Rohpixel mit 5 Hz, um präzise 30 Hz Tastatur-Maus-Aktionen zu erzeugen, und ruft das Denken nur bei Bedarf adaptiv auf. In Genshin Impact trainiert, absolviert Lumine die gesamte fünfstündige Mondstadt-Hauptgeschichte mit einer Effizienz auf menschlichem Niveau und folgt natürlichen Sprachbefehlen, um eine breite Palette von Aufgaben sowohl in der 3D-Open-World-Erkundung als auch in der 2D-GUI-Manipulation zu bewältigen, darunter Sammeln, Kampf, Rätsellösen und NPC-Interaktion. Neben seiner leistungsstarken In-Domain-Performance zeigt Lumine eine starke Zero-Shot-Übergeneralisierung über verschiedene Spiele hinweg. Ohne jegliche Feinabstimmung bewältigt es 100-minütige Missionen in Wuthering Waves und das gesamte fünfstündige erste Kapitel von Honkai: Star Rail. Diese vielversprechenden Ergebnisse unterstreichen die Wirksamkeit von Lumine über verschiedene Welten und Interaktionsdynamiken hinweg und markieren einen konkreten Schritt hin zu Generalisten-Agenten in offenen Umgebungen.
Die Identifizierung von Wirkstoffkandidaten (Hit Identification) stellt eine zentrale Herausforderung in der frühen Wirkstoffentwicklung dar und erforderte traditionell erhebliche experimentelle Ressourcen. Jüngste Fortschritte in der künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (LLMs), haben virtuelle Screening-Methoden ermöglicht, die Kosten senken und die Effizienz steigern. Die zunehmende Komplexität dieser Werkzeuge hat ihre Zugänglichkeit für Forscher im Labor jedoch eingeschränkt. Multi-Agenten-Systeme bieten eine vielversprechende Lösung, indem sie die Interpretierbarkeit von LLMs mit der Präzision spezialisierter Modelle und Werkzeuge kombinieren. In dieser Arbeit stellen wir MADD vor, ein Multi-Agenten-System, das aus natürlichen Sprachabfragen heraus maßgeschneiderte Pipelines zur Identifizierung von Wirkstoffkandidaten erstellt und ausführt. MADD setzt vier koordinierte Agenten ein, um Schlüsselteilaufgaben bei der de novo-Generierung und dem Screening von Verbindungen zu bewältigen. Wir evaluieren MADD anhand von sieben Wirkstoffentwicklungsfällen und demonstrieren seine überlegene Leistung im Vergleich zu bestehenden LLM-basierten Lösungen. Mit MADD bahnen wir den Weg für einen KI-zentrierten Wirkstoffdesign-Ansatz für fünf biologische Targets und veröffentlichen die identifizierten Wirkstoffkandidaten. Abschließend stellen wir einen neuen Benchmark mit Abfrage-Molekül-Paaren und Docking-Scores für über drei Millionen Verbindungen vor, um zur agentenbasierten Zukunft der Wirkstoffentwicklung beizutragen.
Diffusionsbasierte Videogenerierung kann realistische Videos erzeugen, doch die bestehende Konditionierung auf Bilder und Texte bietet keine präzise Bewegungskontrolle. Bisherige Methoden für bewegungsgesteuerte Synthese erfordern typischerweise modelspezifisches Fine-Tuning, was rechenintensiv und einschränkend ist. Wir stellen Time-to-Move (TTM) vor, ein trainingsfreies Plug-and-Play-Framework für bewegungs- und erscheinungsgesteuerte Videogenerierung mit Bild-zu-Video (I2V) Diffusionsmodellen. Unser zentraler Ansatz ist die Verwendung grober Referenzanimationen, die durch benutzerfreundliche Manipulationen wie Ausschneiden-und-Ziehen oder tiefenbasierte Reprojektion gewonnen werden. Inspiriert durch SDEdits Nutzung grober Layout-Hinweise zur Bildbearbeitung, behandeln wir die groben Animationen als unpräzise Bewegungsimpulse und übertragen den Mechanismus in den Videobereich. Wir bewahren das Erscheinungsbild durch Bildkonditionierung und führen dual-clock Denoising ein, eine regionsabhängige Strategie, die eine starke Ausrichtung in bewegungsdefinierten Bereichen erzwingt, während sie Flexibilität anderswo zulässt, um Treue zur Benutzerintention mit natürlicher Dynamik abzuwägen. Diese leichtgewichtige Modifikation des Sampling-Prozesses verursacht keine zusätzlichen Trainings- oder Laufzeitkosten und ist mit jedem Backbone kompatibel. Umfangreiche Experimente mit Benchmarks für Objekt- und Kamerabewegungen zeigen, dass TTM bestehende trainierte Baselines in Realismus und Bewegungskontrolle erreicht oder übertrifft. Darüber hinaus ermöglicht TTM eine einzigartige Fähigkeit: präzise Erscheinungskontrolle durch pixelgenaue Konditionierung, die die Grenzen rein textbasierter Steuerung überwindet. Besuchen Sie unsere Projektseite für Videobeispiele und Code: https://time-to-move.github.io/.
Wir stellen Motif-2-12.7B vor, ein neues Open-Weight-Foundation-Model, das die Effizienzgrenze großer Sprachmodelle durch die Kombination von Architekturinnovationen und Systemoptimierungen verschiebt. Motif-2-12.7B wurde für skalierbares Sprachverständnis und robuste Instruktionsverallgemeinerung unter begrenzten Rechenbudgets entwickelt und baut auf Motif-2.6B auf, indem es Grouped Differential Attention (GDA) integriert. Dieser Mechanismus verbessert die Repräsentationseffizienz, indem er Signal- und Rauschkontroll-Aufmerksamkeitspfade entkoppelt. Das Modell wurde mit 5,5 Billionen Tokens vortrainiert, die verschiedene linguistische, mathematische, wissenschaftliche und Programmierdomänen abdecken, unter Verwendung eines curriculumgesteuerten Datenplaners, der die Datenzusammensetzung schrittweise anpasst. Das Trainingssystem nutzt den MuonClip-Optimierer zusammen mit maßgeschneiderten Hochleistungskerneln, einschließlich gefusster PolyNorm-Aktivierungen und dem parallelen Muon-Algorithmus, was zu erheblichen Durchsatz- und Speichereffizienzsteigerungen in großskaligen verteilten Umgebungen führt. Das Post-Training umfasst eine dreistufige Pipeline für überwachtes Feintuning, die nacheinander die allgemeine Instruktionsbefolgung, das kompositionelle Verständnis und die linguistische Präzision verbessert. Motif-2-12.7B zeigt eine wettbewerbsfähige Leistung in verschiedenen Benchmarks und belegt, dass durchdachtes architektonisches Skalieren und optimiertes Trainingsdesign die Fähigkeiten deutlich größerer Modelle erreichen können.
Die Erweiterung großer Sprachmodelle (LLMs) mit externen Werkzeugen ermöglicht ihnen die Ausführung komplexer, mehrstufiger Aufgaben. Allerdings wird das Werkzeuglernen durch statische synthetische Datenpipelines behindert, bei denen Datengenerierung und Modelltraining als zwei separate, nicht-interaktive Prozesse ablaufen. Dieser Ansatz kann sich nicht adaptiv auf die spezifischen Schwächen eines Modells konzentrieren und lässt verrauschte Labels bestehen, was die Trainingseffizienz beeinträchtigt. Wir stellen LoopTool vor, einen vollständig automatisierten, modellbewussten Datenentwicklungsrahmen, der diese Lücke schließt, indem er Datensynthese und Modelltraining eng verzahnt. LoopTool verbessert iterativ sowohl die Daten als auch das Modell durch drei synergetische Module: (1) Greedy Capability Probing (GCP) diagnostiziert die erlernten und fehlgeschlagenen Fähigkeiten des Modells; (2) Judgement-Guided Label Verification (JGLV) nutzt ein Open-Source-Bewertungsmodell, um Annotationsfehler zu finden und zu korrigieren und reinigt so den Datensatz sukzessive; und (3) Error-Driven Data Expansion (EDDE) generiert neue, anspruchsvolle Beispiele basierend auf identifizierten Fehlern. Dieser geschlossene Regelkreis operiert innerhalb einer kosteneffizienten Open-Source-Infrastruktur und beseitigt die Abhängigkeit von teuren Closed-Source-APIs. Experimente zeigen, dass unser mit LoopTool trainiertes 8B-Modell sein 32B-Datengenerator-Modell signifikant übertrifft und neue State-of-the-Art-Ergebnisse auf den Benchmarks BFCL-v3 und ACEBench für seine Skalierung erreicht. Unsere Arbeit demonstriert, dass geschlossene, sich selbst verfeinernde Datenpipelines die Werkzeugnutzungsfähigkeiten von LLMs dramatisch steigern können.
Vision-Language-Action (VLA)-Modelle haben ein großes Potenzial für universelle Robotermanipulation gezeigt, doch ihre Abhängigkeit von Experten-Demonstrationen schränkt ihre Fähigkeit ein, aus Fehlern zu lernen und Selbstkorrekturen durchzuführen. Reinforcement Learning (RL) adressiert diese Probleme durch selbstverbessernde Interaktionen mit der physikalischen Umgebung, leidet jedoch unter hoher Sample-Komplexität auf realen Robotern. Wir stellen World-Model-based Policy Optimization (WMPO) vor, einen prinzipienbasierten Rahmen für On-Policy-VLA-RL ohne Interaktion mit der realen Umgebung. Im Gegensatz zu weit verbreiteten latenten Weltmodellen konzentriert sich WMPO auf pixelbasierte Vorhersagen, die die "imaginierten" Trajektorien mit den auf Web-Scale-Bildern vortrainierten VLA-Merkmalen in Einklang bringen. Entscheidend ist, dass WMPO der Policy ermöglicht, On-Policy-GRPO durchzuführen, was eine höhere Leistung bietet als die häufig verwendeten Off-Policy-Methoden. Umfangreiche Experimente in Simulations- und Echtzeit-Roboterumgebungen zeigen, dass WMPO (i) die Sample-Effizienz erheblich verbessert, (ii) eine stärkere Gesamtleistung erzielt, (iii) emergente Verhaltensweisen wie Selbstkorrektur zeigt und (iv) robuste Generalisierungs- und Lebenslanges-Lernen-Fähigkeiten demonstriert.
Die Entwicklung von Benutzeroberflächen (UI) erfordert die Umsetzung von Designvorlagen in funktionalen Code, ein Prozess, der nach wie vor repetitiv und arbeitsintensiv bleibt. Während neuere Vision-Language-Models (VLMs) die UI-zu-Code-Generierung automatisieren, erzeugen sie lediglich statische HTML/CSS/JavaScript-Layouts ohne Interaktivität. Um dies zu adressieren, schlagen wir WebVIA vor, das erste agentenbasierte Framework für die interaktive UI-zu-Code-Generierung und Validierung. Das Framework besteht aus drei Komponenten: 1) einem Explorationsagenten zum Erfassen von UI-Screenshots mit mehreren Zuständen; 2) einem UI2Code-Modell, das ausführbaren interaktiven Code generiert; 3) einem Validierungsmodul, das die Interaktivität überprüft. Experimente zeigen, dass WebVIA-Agent eine stabilere und genauere UI-Exploration erreicht als allgemeine Agenten (z.B. Gemini-2.5-Pro). Zudem weisen unsere feinabgestimmten WebVIA-UI2Code-Modelle erhebliche Verbesserungen bei der Generierung von ausführbarem und interaktivem HTML/CSS/JavaScript-Code auf und übertreffen ihre Basisversionen sowohl in interaktiven als auch in statischen UI2Code-Benchmarks. Unser Code und unsere Modelle sind verfügbar unter https://webvia.github.io.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten bei visuell-sprachlichen Antwortaufgaben unter Beweis gestellt. Trotz ihrer Stärken stoßen diese Modelle häufig auf Schwierigkeiten, komplexe Denkaufgaben wie das Lösen mathematischer Probleme zu bewältigen. Bisherige Arbeiten konzentrierten sich auf das Feinabstimmen spezialisierter mathematischer Datensätze. Diese Datensätze werden jedoch typischerweise direkt von Lehrermodellen destilliert, die nur statische Denkmuster erfassen und erhebliche Lücken im Vergleich zu Schülermodellen hinterlassen. Diese Abhängigkeit von festen, lehrerbasierten Datensätzen schränkt nicht nur die Fähigkeit des Modells ein, sich auf neuartige oder komplexere Fragen anzupassen, die über den Rahmen der Trainingsdaten hinausgehen, sondern es fehlt auch an der iterativen Tiefe, die für eine robuste Generalisierung erforderlich ist. Um diese Grenzen zu überwinden, schlagen wir \method, einen mathematischen selbstentwickelnden Rahmen für MLLMs, vor. Im Gegensatz zu traditionellen Paradigmen der Feinabstimmung in einem Schritt verfeinert \method das Modell iterativ durch Zyklen von Inferenz, Reflexion und belohnungsbasiertem Feedback. Insbesondere nutzen wir iterative Feinabstimmung, indem wir korrekte Denkpfade aus Inferenzen der vorherigen Stufe einbeziehen und Reflexionen eines spezialisierten Outcome Reward Model (ORM) integrieren. Um die Wirksamkeit von \method zu überprüfen, evaluieren wir es anhand einer Reihe anspruchsvoller Benchmarks und zeigen signifikante Leistungssteigerungen gegenüber Basismodellen. Bemerkenswerterweise übertreffen unsere experimentellen Ergebnisse auf MathVL-test das führende Open-Source-Modell für multimodales mathematisches Denken, QVQ. Unser Code und unsere Modelle sind verfügbar unter https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Web-Agents haben Schwierigkeiten, sich an neue Websites anzupassen, was auf die Knappheit umgebungsspezifischer Aufgaben und Demonstrationen zurückzuführen ist. In jüngsten Arbeiten wurde die Erzeugung synthetischer Daten als Lösungsansatz untersucht; diese leiden jedoch unter Datenqualitätsproblemen, bei denen synthetisierte Aufgaben Halluzinationen enthalten, die nicht ausgeführt werden können, und gesammelte Trajektorien aufgrund redundanter oder fehlausgerichteter Aktionen verrauscht sind. In diesem Artikel stellen wir SynthAgent vor, ein vollständig synthetisches Supervision-Framework, das darauf abzielt, die Qualität synthetischer Daten durch eine duale Verfeinerung sowohl der Aufgaben als auch der Trajektorien zu verbessern. Unser Ansatz beginnt mit der Synthese vielfältiger Aufgaben durch kategorisierte Exploration von Web-Elementen, um eine effiziente Abdeckung der Zielumgebung zu gewährleisten. Während der Trajektoriensammlung verfeinern wir Aufgaben, sobald Konflikte mit tatsächlichen Beobachtungen erkannt werden, um Halluzinationen zu reduzieren und gleichzeitig die Aufgabenkonsistenz aufrechtzuerhalten. Nach der Sammlung führen wir eine Trajektorienverfeinerung mit einem globalen Kontext durch, um potenzielles Rauschen oder Fehlausrichtungen zu minimieren. Abschließend fine-tunen wir Open-Source-Web-Agents auf den verfeinerten synthetischen Daten, um sie an die Zielumgebung anzupassen. Experimentelle Ergebnisse zeigen, dass SynthAgent bestehende Methoden zur Erzeugung synthetischer Daten übertrifft und die Bedeutung hochwertiger synthetischer Supervision bestätigt. Der Code wird unter https://github.com/aiming-lab/SynthAgent öffentlich verfügbar sein.
Diffusionsmodelle haben eine starke generative Leistung unter Verwendung von Guidance-Methoden wie dem Classifier-Free Guidance (CFG) gezeigt, welche die Ausgabequalität durch Modifikation der Sampling-Trajektorie verbessern. Diese Methoden steigern typischerweise eine Zielausgabe, indem sie eine andere, oft die unbedingte Ausgabe, durch heuristische Perturbationsfunktionen wie Identity-Mixing oder verschwommene Bedingungen absichtlich verschlechtern. Allerdings fehlt diesen Ansätzen eine prinzipielle Grundlage, und sie stützen sich auf manuell gestaltete Verzerrungen. In dieser Arbeit schlagen wir Adversarial Sinkhorn Attention Guidance (ASAG) vor, eine neuartige Methode, die Aufmerksamkeitswerte in Diffusionsmodellen durch die Brille des optimalen Transports neu interpretiert und die Transportkosten gezielt über den Sinkhorn-Algorithmus stört. Anstatt den Aufmerksamkeitsmechanismus naiv zu korrumpieren, injiziert ASAG eine adversarielle Kostenfunktion in Self-Attention-Schichten, um die pixelweise Ähnlichkeit zwischen Queries und Keys zu reduzieren. Diese gezielte Verschlechterung schwächt irreführende Aufmerksamkeitsausrichtungen und führt zu einer verbesserten bedingten und unbedingten Stichprobenqualität. ASAG zeigt konsistente Verbesserungen in der Text-zu-Bild-Diffusion und erhöht die Steuerbarkeit und Treue in Downstream-Anwendungen wie IP-Adapter und ControlNet. Die Methode ist leichtgewichtig, plug-and-play-fähig und verbessert die Zuverlässigkeit, ohne ein erneutes Modelltraining zu erfordern.
Agentische Codierungstools wie OpenAI Codex, Claude Code und Cursor verändern die Landschaft der Softwareentwicklung. Diese KI-gestützten Systeme fungieren als autonome Teammitglieder, die in der Lage sind, komplexe Entwicklungsaufgaben zu planen und auszuführen. Agenten sind zu aktiven Teilnehmern beim Refactoring geworden, einem Grundpfeiler nachhaltiger Softwareentwicklung, der darauf abzielt, die interne Codequalität zu verbessern, ohne das beobachtbare Verhalten zu verändern. Trotz ihrer zunehmenden Verbreitung besteht ein eklatanter Mangel an empirischem Verständnis darüber, wie agentisches Refactoring in der Praxis genutzt wird, wie es sich im Vergleich zu menschlichem Refactoring verhält und welche Auswirkungen es auf die Codequalität hat. Um diese empirische Lücke zu schließen, präsentieren wir eine groß angelegte Studie zu KI-Agenten-generierten Refactorings in realen Open-Source-Java-Projekten, in der wir 15.451 Refactoring-Instanzen aus 12.256 Pull Requests und 14.988 Commits aus dem AIDev-Datensatz analysieren. Unsere empirische Analyse zeigt, dass Refactoring in diesem Entwicklungsparadigma eine häufige und bewusste Aktivität ist, wobei Agenten explizit in 26,1 % der Commits auf Refactoring abzielen. Die Analyse der Refactoring-Typen zeigt, dass die agentischen Aktivitäten von niedrigschwelligen, konsistenzorientierten Änderungen dominiert werden, wie z. B. Change Variable Type (11,8 %), Rename Parameter (10,4 %) und Rename Variable (8,5 %). Dies spiegelt eine Präferenz für lokalisierte Verbesserungen wider, im Gegensatz zu den hochrangigen Designänderungen, die beim menschlichen Refactoring üblich sind. Zudem konzentrieren sich die Motivationen für agentisches Refactoring überwiegend auf interne Qualitätsaspekte, insbesondere Wartbarkeit (52,5 %) und Lesbarkeit (28,1 %). Des Weiteren zeigt die quantitative Auswertung von Code-Qualitätsmetriken, dass agentisches Refactoring zu kleinen, aber statistisch signifikanten Verbesserungen bei strukturellen Metriken führt, insbesondere bei Änderungen mittleren Umfangs, die die Klassenkomplexität reduzieren (z. B. mediane Δ Class LOC = -15,25).
Sprachmodelle zeigen bemerkenswerte Fähigkeiten zur natürlichen Sprachgenerierung, neigen jedoch weiterhin zu Halluzinationen, bei denen sie trotz syntaktisch kohärenter Antworten faktisch falsche Informationen erzeugen. Diese Studie stellt das Licensing Oracle vor, eine architektonische Lösung, die entwickelt wurde, um Halluzinationen in Sprachmodellen einzudämmen, indem sie Wahrheitsbedingungen durch formale Validierung anhand strukturierter Wissensgraphen durchsetzt. Im Gegensatz zu statistischen Ansätzen, die auf Datenvergrößerung oder Feinabstimmung angewiesen sind, integriert das Licensing Oracle einen deterministischen Validierungsschritt in den Generierungsprozess des Modells und stellt so sicher, dass nur faktisch korrekte Aussagen getroffen werden. Wir bewerteten die Wirksamkeit des Licensing Oracle durch Experimente, in denen wir es mit mehreren modernen Methoden verglichen, darunter Basis-Sprachmodell-Generierung, Feinabstimmung für faktische Richtigkeit, Feinabstimmung für Enthaltsamkeitsverhalten und retrieval-augmentierte Generierung (RAG). Unsere Ergebnisse zeigen, dass zwar RAG und Feinabstimmung die Leistung verbessern, sie aber Halluzinationen nicht vollständig beseitigen. Im Gegensatz dazu erreichte das Licensing Oracle eine perfekte Enthaltsamkeitspräzision (AP = 1,0) und keine falschen Antworten (FAR-NE = 0,0) und stellte sicher, dass nur gültige Aussagen mit einer Genauigkeit von 89,1 % bei faktischen Antworten generiert wurden. Diese Arbeit zeigt, dass architektonische Innovationen wie das Licensing Oracle eine notwendige und hinreichende Lösung für Halluzinationen in Domänen mit strukturierten Wissensrepräsentationen bieten und Garantien ermöglichen, die statistische Methoden nicht erreichen können. Obwohl das Licensing Oracle speziell zur Bekämpfung von Halluzinationen in faktenbasierten Domänen entwickelt wurde, legt sein Framework den Grundstein für wahrheitsbeschränkte Generierung in zukünftigen KI-Systemen und eröffnet einen neuen Weg zu zuverlässigen, epistemisch fundierten Modellen.