papers.description
Im Streben nach wissenschaftlichem Fortschritt ist die Kommunikation von Forschungsergebnissen ebenso entscheidend wie die Entdeckung selbst. Dennoch werden Forschende häufig durch die manuelle, repetitive Aufgabe abgelenkt, Projektwebseiten zu erstellen, um ihre komplexen Arbeiten zugänglich zu machen. Während die Automatisierung bereits statische Folien und Poster bewältigt hat, ist die dynamische, interaktive Natur von Webseiten eine bislang ungelöste Herausforderung geblieben. Um diese Lücke zu schließen, formulieren wir das Problem neu und argumentieren, dass die Lösung nicht in einem einzelnen Befehl, sondern in einem kollaborativen, hierarchischen Prozess liegt. Wir stellen AutoPage vor, ein neuartiges Multi-Agenten-System, das diese Philosophie verkörpert. AutoPage zerlegt die Erstellung von Webseiten aus wissenschaftlichen Artikeln in eine grob- bis feingranulare Pipeline – von der narrativen Planung über die multimodale Inhaltsgenerierung bis hin zum interaktiven Rendering. Um KI-Halluzinationen entgegenzuwirken, überprüfen dedizierte "Checker"-Agenten jeden Schritt anhand des Originalartikels, während optionale menschliche Kontrollpunkte sicherstellen, dass das Endprodukt perfekt mit der Vision der Autoren übereinstimmt. Dadurch wandelt sich das System von einem bloßen Werkzeug zu einem leistungsstarken kollaborativen Assistenten. Um unseren Ansatz rigoros zu validieren, haben wir zudem PageBench entwickelt, den ersten Benchmark für diese neue Aufgabe. Experimente zeigen, dass AutoPage nicht nur hochwertige, visuell ansprechende Seiten generiert, sondern dies auch mit bemerkenswerter Effizienz in weniger als 15 Minuten für unter 0,1 US-Dollar erreicht. Code und Datensatz werden unter https://mqleet.github.io/AutoPage_ProjectPage/ veröffentlicht.
Spekulatives Dekodieren (SD) beschleunigt die Inferenz großer Sprachmodelle, indem ein kleiner Draft-Modell (Entwurfsmodell) Vorhersagen generiert, die anschließend von einem größeren Zielmodell verifiziert werden. Die Wirksamkeit von SD hängt von der Übereinstimmung zwischen diesen Modellen ab, die typischerweise durch Wissensdistillation (KD) verbessert wird. Herkömmliche KD-Methoden zielen jedoch darauf ab, die KL-Divergenz zwischen Draft- und Zielmodell über alle Tokens hinweg zu minimieren – ein Ziel, das nicht mit dem eigentlichen Ziel von SD übereinstimmt, nämlich die Token-Akzeptanzrate zu maximieren. Daher haben Draft-Modelle oft Schwierigkeiten, das Wissen des Zielmodells aufgrund von Kapazitätsbeschränkungen vollständig zu assimilieren, was zu suboptimaler Leistung führt. Um diese Herausforderung zu bewältigen, schlagen wir AdaSPEC vor, eine neuartige Methode, die selektive Token-Filterung in den KD-Prozess integriert. AdaSPEC nutzt ein Referenzmodell, um schwer zu approximierende Tokens zu identifizieren und auszufiltern. Dies ermöglicht die Distillation eines Draft-Modells, das bei einfacheren Tokens besser mit dem Zielmodell übereinstimmt. Dieser Ansatz verbessert die gesamte Token-Akzeptanzrate, ohne die Generierungsqualität zu beeinträchtigen. Wir evaluieren AdaSPEC in verschiedenen Aufgaben, einschließlich arithmetischem Reasoning, Befolgung von Instruktionen, Code-Generierung und Zusammenfassung, mit Modellkonfigurationen von 31M/1,4B und 350M/2,7B Parametern. Unsere Ergebnisse zeigen, dass AdaSPEC durchweg die state-of-the-art DistillSpec-Methode übertrifft und in allen Aufgaben höhere Akzeptanzraten (bis zu 15 %) erzielt. Der Code ist öffentlich verfügbar unter https://github.com/yuezhouhu/adaspec.
Die meisten Videoverständnismodelle generieren lediglich textuelle Begründungstraces, ohne anzugeben, wann und wo Schlüsselevidenzen auftreten. Neuere Modelle wie OpenAI-o3 haben breites Interesse an evidenzzentriertem Schließen für Bilder geweckt, doch die Übertragung dieser Fähigkeit auf Videos ist herausfordernder, da sie gemeinsames zeitliches Tracking und räumliche Lokalisierung über dynamische Szenen hinweg erfordert. Wir stellen Open-o3 Video vor, ein nicht-agentenbasiertes Framework, das explizite raumzeitliche Evidenz in die Videoverarbeitung integriert, und erheben sorgfältig Trainingsdaten sowie entwerfen Trainingsstrategien, um die genannten Herausforderungen zu adressieren. Das Modell hebt neben seinen Antworten Schlüsselzeitpunkte, Objekte und Bounding-Boxen hervor, wodurch das Schließen auf konkreten visuellen Beobachtungen basiert. Um diese Funktionalität zu ermöglichen, kuratieren wir zunächst zwei hochwertige Datensätze: STGR-CoT-30k für SFT und STGR-RL-36k für RL, mit sorgfältig konstruierten temporalen und räumlichen Annotationen, da die meisten bestehenden Datensätze entweder Zeitspannen für Videos oder räumliche Boxen für Bilder bieten, jedoch vereinheitlichte raumzeitliche Supervision und Begründungstraces fehlen. Anschließend wenden wir eine Cold-Start-Verstärkungslernstrategie mit mehreren speziell designed Belohnungen an, die gemeinsam Antwortgenauigkeit, temporale Ausrichtung und räumliche Präzision fördern. Auf dem V-STAR-Benchmark erzielt Open-o3 Video state-of-the-art Leistung und steigert mAM um 14,4 % und mLGM um 24,2 % gegenüber der Qwen2.5-VL-Basislinie. Konsistente Verbesserungen zeigen sich auch auf einer breiten Palette von Videoverständnis-Benchmarks, darunter VideoMME, WorldSense, VideoMMMU und TVGBench. Über die Genauigkeit hinaus liefern die von Open-o3 Video produzierten Begründungstraces auch wertvolle Signale für Test-Time-Scaling, ermöglichen konfidenzbewusste Verifikation und verbessern die Antwortzuverlässigkeit.
Aktuelle Text-zu-Video-Modelle erzeugen hervorragend isolierte Clips, scheitern jedoch an der Erstellung kohärenter, mehrteiliger Erzählungen, die den Kern des Geschichtenerzählens ausmachen. Wir schließen diese "Narrationslücke" mit HoloCine, einem Modell, das komplette Szenen ganzheitlich generiert, um globale Konsistenz von der ersten bis zur letzten Einstellung zu gewährleisten. Unsere Architektur erreicht eine präzise Regiekontrolle durch einen Window Cross-Attention-Mechanismus, der Textprompts bestimmten Einstellungen zuordnet, während ein Sparse Inter-Shot Self-Attention-Muster (dicht innerhalb von Einstellungen, aber spärlich zwischen ihnen) die für die Erzeugung im Minutenmaßstab erforderliche Effizienz sicherstellt. Neben einem neuen State-of-the-Art in der narrativen Kohärenz entwickelt HoloCine bemerkenswerte emergente Fähigkeiten: ein persistentes Gedächtnis für Charaktere und Schauplätze sowie ein intuitives Verständnis filmischer Techniken. Unsere Arbeit markiert einen entscheidenden Wandel von der Clip-Synthese hin zum automatisierten Filmemachen und macht die end-to-end filmische Kreation zu einer greifbaren Zukunft. Unser Code ist verfügbar unter: https://holo-cine.github.io/.
Diffusion-Transformer-Modelle können Bilder mit bemerkenswerter Treue und Detailgenauigkeit erzeugen, doch das Training bei ultrahohen Auflösungen bleibt aufgrund der quadratischen Skalierung des Self-Attention-Mechanismus mit der Anzahl der Bild-Token extrem kostspielig. In diesem Artikel stellen wir Dynamic Position Extrapolation (DyPE) vor, eine neuartige, trainingsfreie Methode, die vortrainierten Diffusion-Transformer-Modellen ermöglicht, Bilder in Auflösungen weit jenseits ihrer Trainingsdaten ohne zusätzliche Sampling-Kosten zu synthetisieren. DyPE nutzt den dem Diffusionsprozess innewohnenden spektralen Verlauf aus, bei dem sich niederfrequente Strukturen früh konsolidieren, während Hochfrequenzen mehr Schritte zur Ausprägung benötigen. Konkret passt DyPE die Positionskodierung des Modells dynamisch an jedem Diffusionsschritt an, indem es deren Frequenzspektrum mit der aktuellen Phase des Generierungsprozesses abstimmt. Dieser Ansatz ermöglicht es uns, Bilder in Auflösungen zu erzeugen, die die Trainingsauflösung dramatisch übertreffen, z.B. 16 Millionen Pixel mit FLUX. Auf mehreren Benchmarks verbessert DyPE durchgängig die Leistung und erreicht state-of-the-art Bildtreue bei der Ultrahochauflösungs-Bildgenerierung, wobei die Gewinne bei höheren Auflösungen noch deutlicher werden. Die Projektseite ist unter https://noamissachar.github.io/DyPE/ verfügbar.
Diskrete Diffusionsmodelle bieten eine vielversprechende Alternative zur autoregressiven Erzeugung durch parallele Dekodierung, leiden jedoch unter einem Sampling-Problem: Sobald kategoriales Sampling stattfindet, kollabieren umfangreiche Verteilungsinformationen zu One-Hot-Vektoren und können nicht über die Schritte hinweg propagiert werden, was nachfolgende Schritte zwingt, mit begrenzten Informationen zu operieren. Um dieses Problem zu mildern, führen wir Loopholing ein, einen neuartigen und einfachen Mechanismus, der diese Informationen über einen deterministischen latenten Pfad erhält, was zu Loopholing Discrete Diffusion Models (LDDMs) führt. Effizient trainiert mit einer Self-Conditioning-Strategie, erzielen LDDMs erhebliche Verbesserungen – sie reduzieren die generative Perplexität um bis zu 61 % gegenüber früheren Baseline-Modellen, schließen die Lücke zu autoregressiven Modellen (und übertreffen sie in einigen Fällen sogar) und erzeugen kohärenteren Text. Bei der Anwendung auf Reasoning-Aufgaben verbessern LDDMs ebenfalls die Leistung auf arithmetischen Benchmarks wie Countdown und Game of 24. Diese Ergebnisse deuten zudem darauf hin, dass Loopholing Leerlaufschritte und Oszillationen vermindert und damit einen skalierbaren Weg für hochwertige nicht-autoregressive Texterzeugung bietet.
Die Entwicklung verkörperter KI-Agenten erfordert skalierbare Trainingsumgebungen, die Inhaltsvielfalt mit physikalischer Genauigkeit in Einklang bringen. Weltensimulatoren bieten solche Umgebungen, stoßen jedoch auf spezifische Grenzen: videobasierte Methoden erzeugen diverse Inhalte, bieten jedoch kein Echtzeit-Physik-Feedback für interaktives Lernen, während physikbasierte Engines präzise Dynamik bereitstellen, aber unter Skalierbarkeitsbeschränkungen durch aufwändige manuelle Asset-Erstellung leiden. Wir präsentieren Seed3D 1.0, ein Foundation-Modell, das aus Einzelbildern simulationsfertige 3D-Assets generiert und dabei die Skalierbarkeitsherausforderung bei gleichzeitiger Wahrung der physikalischen Strenge adressiert. Im Gegensatz zu bestehenden 3D-Generierungsmodellen erzeugt unser System Assets mit präziser Geometrie, gut ausgerichteten Texturen und realistischen physikalisch basierten Materialien. Diese Assets können mit minimaler Konfiguration direkt in Physik-Engines integriert werden, was den Einsatz in robotischer Manipulation und Simulationstraining ermöglicht. Über einzelne Objekte hinaus skaliert das System zur vollständigen Szenengenerierung durch das Zusammenfügen von Objekten zu kohärenten Umgebungen. Durch die Ermöglichung skalierbarer, simulationsfertiger Inhaltserstellung legt Seed3D 1.0 die Grundlage für die Weiterentwicklung physikbasierter Weltensimulatoren. Seed3D 1.0 ist jetzt verfügbar unter https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
Wissensbearbeitung bietet eine effiziente Methode zur Aktualisierung von Modellwissen ohne vollständiges Neutraining, doch konzentrierte sich bisherige Arbeit fast ausschließlich auf textuelle oder visuelle Modalitäten. Wir stellen SAKE vor, den ersten speziell entwickelten Benchmark zur Bearbeitung auditiver Attributkenntnisse in großen Audio-Sprach-Modellen (LALMs). Im Gegensatz zu faktischen Aktualisierungen zielt SAKE auf mehrere abstrakte auditive Attribute ab und erfasst Wissensarten, die über konventionelle textuelle und visuelle Domänen hinausgehen. Wir evaluieren sieben Bearbeitungsmethoden an zwei LALMs in vier Dimensionen: Zuverlässigkeit, Generalisierbarkeit, Audio-/Textlokalität und Übertragbarkeit. Die Ergebnisse verdeutlichen Herausforderungen wie den Erhalt von attributinternem Wissen unabhängig von der Bearbeitung, die Generalisierung von Bearbeitungen auf multimodales Reasoning sowie die Beibehaltung von Bearbeitungen bei sequenziellen Aktualisierungen. SAKE bietet einen prinzipienbasierten Rahmen zur Erforschung der Ausweitung von Wissensbearbeitung auf auditive Modalitäten und eröffnet neue Richtungen für die Wartung und Anpassung von LALMs in vielfältigeren realen Szenarien.
Wir schlagen Reinforcement Learning with Explicit Human Values (RLEV) vor, eine Methode, die die Optimierung von Large Language Models (LLM) direkt mit quantifizierbaren menschlichen Wertesignalen in Einklang bringt. Während Reinforcement Learning with Verifiable Rewards (RLVR) Modelle in objektiven Domänen effektiv mit binären Korrektheitsbelohnungen trainiert, übersieht es, dass nicht alle Aufgaben gleich bedeutend sind. RLEV erweitert diesen Rahmen, indem es menschlich definierte Wertesignale direkt in die Belohnungsfunktion integriert. Unter Verwendung von prüfungsähnlichen Daten mit expliziten Ground-Truth-Wertelabels übertrifft RLEV durchgängig Korrektheits-Baselines über mehrere RL-Algorithmen und Modellgrößen hinweg. Entscheidend ist, dass RLEV-Policys nicht nur die wertgewichtete Genauigkeit verbessern, sondern auch eine wertempfindliche Abschlussrichtlinie erlernen: knapp für Prompts mit niedrigem Wert, gründlich für solche mit hohem Wert. Wir zeigen, dass dieses Verhalten von einer wertgewichteten Gradientenverstärkung auf End-of-Sequence-Tokens herrührt. Ablationsstudien bestätigen, dass der Gewinn kausal mit der Wertausrichtung verknüpft ist. RLEV bleibt robust unter verrauschten Wertesignalen, wie z.B. schwierigkeitsbasierten Labels, was demonstriert, dass die Optimierung für eine explizite Nutzenfunktion einen praktischen Weg bietet, um LLMs mit menschlichen Prioritäten in Einklang zu bringen.
Große Audio-Sprach-Modelle (LALMs) erweitern textbasierte LLMs um auditives Verständnis und eröffnen neue Möglichkeiten für multimodale Anwendungen. Während ihre Wahrnehmungsfähigkeiten, Schlussfolgerungskompetenz und Aufgabenleistung bereits umfassend untersucht wurden, bleibt ihre Sicherheitsausrichtung unter paralinguistischer Variation weitgehend unerforscht. Diese Arbeit untersucht systematisch die Rolle von Sprecheremotionen. Wir erstellen einen Datensatz mit bösartigen Sprachinstruktionen, die in verschiedenen Emotionen und Intensitäten ausgedrückt werden, und evaluieren mehrere state-of-the-art LALMs. Unsere Ergebnisse zeigen erhebliche Sicherheitsinkonsistenzen: Unterschiedliche Emotionen lösen unterschiedlich starke unsichere Antworten aus, und der Effekt der Intensität verläuft nicht-monoton, wobei mittlere Ausdrucksstärken oft das größte Risiko darstellen. Diese Erkenntnisse beleuchten eine übersehene Schwachstelle in LALMs und fordern Sicherheitsstrategien, die explizit für Robustheit unter emotionaler Variation konzipiert sind – eine Voraussetzung für den vertrauenswürdigen Einsatz in realen Umgebungen.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zur Haupttechnik für das Training von LLM-Agenten entwickelt. RLVR ist jedoch stark auf sorgfältig gestellte Aufgabenabfragen und entsprechende Ground-Truth-Antworten angewiesen, um genaue Belohnungen zu liefern, was einen hohen manuellen Aufwand erfordert und die RL-Skalierungsprozesse behindert, insbesondere in agentenbasierten Szenarien. Obwohl einige neuere Arbeiten Methoden zur Aufgabensynthese untersuchen, lässt sich der Schwierigkeitsgrad generierter agentenbasierter Aufgaben kaum kontrollieren, um effektive Trainingsvorteile für RL zu bieten. Um agentenbasiertes RLVR mit höherer Skalierbarkeit zu erreichen, untersuchen wir Self-Play-Training für tiefe Suchagenten, bei dem das lernende LLM mehrstufige Suchmaschinenaufrufe nutzt und gleichzeitig sowohl als Aufgabensteller als auch als Problemlöser agiert. Der Aufgabensteller zielt darauf ab, tiefgehende Suchanfragen mit klar definierten Ground-Truth-Antworten und steigendem Schwierigkeitsgrad zu generieren. Der Problemlöser versucht, die generierten Suchanfragen zu bearbeiten und korrekte Antwortvorhersagen auszugeben. Um sicherzustellen, dass jede generierte Suchanfrage eine genaue Ground-Truth-Antwort hat, erfassen wir alle Suchergebnisse aus der Trajektorie des Aufgabenstellers als externes Wissen und führen dann eine retrieval-augmentierte Generierung (RAG) durch, um zu testen, ob die gestellte Anfrage korrekt beantwortet werden kann, wenn alle notwendigen Suchdokumente bereitgestellt werden. In diesem Such-Self-Play (SSP)-Spiel entwickeln der Aufgabensteller und der Problemlöser ihre Agentenfähigkeiten durch Wettbewerb und Kooperation gemeinsam weiter. Anhand umfangreicher experimenteller Ergebnisse stellen wir fest, dass SSP die Leistung von Suchagenten einheitlich auf verschiedenen Benchmarks sowohl unter Neu- als auch unter Fortführungstrainings-Setups für RL ohne jegliche Beaufsichtigung signifikant verbessern kann. Der Code ist unter https://github.com/Alibaba-Quark/SSP verfügbar.
Wir präsentieren den Massive Legal Embedding Benchmark (MLEB), den bisher größten, vielfältigsten und umfassendsten Open-Source-Benchmark für juristisches Information-Retrieval. MLEB besteht aus zehn von Experten annotierten Datensätzen, die mehrere Rechtsgebiete (USA, UK, EU, Australien, Irland und Singapur), Dokumenttypen (Gerichtsurteile, Gesetzgebung, behördliche Leitlinien, Verträge und Fachliteratur) und Aufgabentypen (Suche, Zero-Shot-Klassifikation und Fragebeantwortung) abdecken. Sieben der Datensätze in MLEB wurden neu erstellt, um domänenspezifische und rechtsgebietsbezogene Lücken in der Open-Source-Landschaft des juristischen Information-Retrievals zu schließen. Wir dokumentieren unsere Methodik zur Erstellung von MLEB und der neuen Teil-Datensätze und veröffentlichen unseren Code, Ergebnisse und Daten offen, um reproduzierbare Evaluationen zu unterstützen.
Natürliche Sprache ermöglicht seit langem menschliche Zusammenarbeit, doch ihre verlustbehaftete, mehrdeutige und indirekte Natur begrenzt das Potenzial kollektiver Intelligenz. Während Maschinen diesen Einschränkungen nicht unterliegen, stützen sich die meisten multi-agenten Systeme auf Basis von LLMs nach wie vor ausschließlich auf natürliche Sprache, indem sie Tokens oder deren Embeddings austauschen. Um über Sprache hinauszugehen, führen wir ein neues Paradigma ein: Gedankenkommunikation, die es Agenten ermöglicht, direkt von Geist zu Geist zu interagieren, ähnlich wie bei Telepathie. Um diese latenten Gedanken auf principled Weise zu entschlüsseln, formalisieren wir den Prozess als allgemeines latentes Variablenmodell, bei dem Agentenzustände durch eine unbekannte Funktion zugrundeliegender Gedanken erzeugt werden. Wir beweisen, dass in einem nichtparametrischen Setting ohne Zusatzinformationen sowohl gemeinsame als auch private latente Gedanken zwischen beliebigen Agentenpaaren identifiziert werden können. Darüber hinaus kann auch die globale Struktur der Gedankenteilung – einschließlich welcher Agent welche Gedanken teilt und wie diese Beziehungen strukturiert sind – mit theoretischen Garantien rekonstruiert werden. Angeleitet durch die etablierte Theorie entwickeln wir ein Framework, das latente Gedanken aller Agenten vor der Kommunikation extrahiert und jedem Agenten die relevanten Gedanken samt ihrer Teilungsmuster zuweist. Dieses Paradigma erstreckt sich natürlich über LLMs hinaus auf alle Modalitäten, da die meisten Beobachtungsdaten aus verborgenen generativen Prozessen stammen. Experimente mit synthetischen und realen Benchmarks validieren die Theorie und demonstrieren die kooperativen Vorteile der Gedankenkommunikation. Wir hoffen, dass diese Arbeit das Potenzial der Nutzung der verborgenen Welt aufzeigt, da viele Herausforderungen allein durch oberflächliche Beobachtung ungelöst bleiben – unabhängig von Rechenkapazität oder Datenmenge.
Video Reasoning, das mehrstufige Deduktion über Bildsequenzen hinweg erfordert, bleibt eine große Herausforderung für multimodale große Sprachmodelle (MLLMs). Während Methoden auf Basis von bestärkendem Lernen (Reinforcement Learning, RL) die Reasoning-Fähigkeiten verbessern, stützen sie sich oft auf rein textbasierte Ketten, die zu unbegründeten oder halluzinierten Schlussfolgerungen führen. Frame-Retrieval-Ansätze hingegen führen visuelle Verankerung ein, kämpfen aber weiterhin mit ungenauer Evidenzlokalisierung. Um diese Herausforderungen zu adressieren, stellen wir Conan vor, einen Framework für evidenzbasiertes, mehrstufiges Video Reasoning. Conan identifiziert kontextuelle und Evidenz-Frames, schlussfolgert aus übergreifenden Hinweisen und entscheidet adaptiv, wann abgeschlossen oder weiter explorativ gesucht werden soll. Um dies zu erreichen, (1) konstruieren wir Conan-91K, einen groß angelegten, automatisch generierten Datensatz von Reasoning-Pfaden, der Frame-Identifikation, Evidenz-Argumentation und Aktionsentscheidung umfasst, und (2) entwerfen wir eine mehrstufige progressive Cold-Start-Strategie kombiniert mit einem Identifikation-Reasoning-Aktion (AIR) RLVR-Trainingsframework, um mehrstufiges visuelles Reasoning gemeinsam zu verbessern. Umfangreiche Experimente auf sechs Multi-Step-Reasoning-Benchmarks zeigen, dass Conan die Baseline Qwen2.5-VL-7B-Instruct im Durchschnitt um über 10 % in der Genauigkeit übertrifft und state-of-the-art Leistung erzielt. Darüber hinaus generalisiert Conan effektiv auf Langvideo-Verständnisaufgaben, was seine hohe Skalierbarkeit und Robustheit validiert.
Trotz ihrer beeindruckenden visuellen Treue mangelt es bestehenden personalisierten Generativmodellen an interaktiver Kontrolle über die räumliche Komposition, und sie skalieren schlecht für mehrere Subjekte. Um diese Einschränkungen zu adressieren, präsentieren wir LayerComposer, ein interaktives Framework für die personalisierte, mehrsubjektige Text-zu-Bild-Generierung. Unser Ansatz führt zwei Hauptbeiträge ein: (1) eine geschichtete Leinwand, eine neuartige Repräsentation, bei der jedes Subjekt auf einer separaten Ebene platziert wird, was eine verdeckungsfreie Komposition ermöglicht; und (2) einen Sperrmechanismus, der ausgewählte Ebenen mit hoher Treue bewahrt, während die verbleibenden Ebenen sich flexibel an den umgebenden Kontext anpassen können. Ähnlich wie professioneller Bildbearbeitungssoftware erlaubt die vorgeschlagene geschichtete Leinwand Benutzern, Eingabesubjekte durch intuitive Ebenenmanipulation zu platzieren, zu skalieren oder zu sperren. Unser vielseitiger Sperrmechanismus erfordert keine Architekturänderungen, sondern stützt sich auf inhärente positionsbezogene Einbettungen in Kombination mit einer neuen komplementären Datenabtaststrategie. Umfangreiche Experimente zeigen, dass LayerComposer im Vergleich zu state-of-the-art Methoden in der mehrsubjektigen personalisierten Bildgenerierung eine überlegene räumliche Kontrolle und Identitätsbewahrung erreicht.
Wir schlagen ein neuartiges Paradigma für Bildsegmentierung auf der Grundlage autoregressiver Generierung (ARGenSeg) vor, das multimodales Verständnis und pixelgenaue Wahrnehmung innerhalb eines einheitlichen Frameworks vereint. Bisherige Arbeiten, die Bildsegmentierung in multimodale große Sprachmodelle (MLLMs) integrieren, verwenden typischerweise entweder Randpunktdarstellungen oder spezielle Segmentierungsköpfe. Diese Methoden stützen sich auf diskrete Darstellungen oder semantische Prompts, die in aufgabenspezifische Decoder eingespeist werden, was die Fähigkeit des MLLMs einschränkt, fein granulierte visuelle Details zu erfassen. Um diese Herausforderungen zu bewältigen, führen wir ein Segmentierungsframework für MLLMs auf der Grundlage von Bildgenerierung ein, das natürlicherweise dichte Masken für Zielobjekte erzeugt. Wir nutzen das MLLM, um visuelle Tokens auszugeben und diese mithilfe eines universellen VQ-VAE in Bilder zu dekodieren, wodurch die Segmentierung vollständig vom pixelgenauen Verständnis des MLLMs abhängt. Um die Inferenzlatenz zu reduzieren, setzen wir eine Next-Scale-Prediction-Strategie ein, um die benötigten visuellen Tokens parallel zu generieren. Umfangreiche Experimente belegen, dass unsere Methode frühere state-of-the-art Ansätze auf mehreren Segmentierungsdatensätzen übertrifft, mit einer bemerkenswerten Steigerung der Inferenzgeschwindigkeit bei gleichzeitigem Erhalt starker Verständnisfähigkeiten.
Zuverlässige Verarbeitung von Code-Diffs ist zentral für Agenten, die Repositorys in großem Maßstab bearbeiten und refaktorisieren. Wir stellen Diff-XYZ vor, einen kompakten Benchmark zum Verständnis von Code-Diffs mit drei überwachten Aufgaben: Apply (alter Code + Diff → neuer Code), Anti-Apply (neuer Code – Diff → alter Code) und Diff-Generierung (neuer Code – alter Code → Diff). Die Instanzen im Benchmark sind Tripel ⟨alter Code, neuer Code, Diff⟩, die aus echten Commits in CommitPackFT stammen und mit automatischen Metriken sowie einem klaren Evaluierungsprotokoll versehen sind. Wir nutzen den Benchmark für eine fokussierte empirische Studie des Unified-Diff-Formats und führen einen formatübergreifenden Vergleich verschiedener Diff-Repräsentationen durch. Unsere Ergebnisse zeigen, dass je nach Anwendungsfall und Modellgröße unterschiedliche Formate verwendet werden sollten. Beispielsweise eignet sich die Darstellung von Diffs im Search-Replace-Format gut für größere Modelle im Diff-Generierungsszenario, ist jedoch für Diff-Analyse und kleinere Modelle weniger geeignet. Der Diff-XYZ-Benchmark bildet eine wiederverwendbare Grundlage zur Bewertung und Verbesserung der Diff-Verarbeitung in LLMs, die die zukünftige Entwicklung von Diff-Formaten und codebearbeitenden Modellen unterstützen kann. Der Datensatz ist auf dem HuggingFace Hub veröffentlicht: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Große Sprachmodelle (LLMs) haben sich als vielversprechende Assistenten für das wissenschaftliche Schreiben erwiesen. Es bestehen jedoch Bedenken hinsichtlich der Qualität und Zuverlässigkeit der generierten Texte, insbesondere in Bezug auf die Genauigkeit und Verlässlichkeit von Zitaten. Während sich die meisten aktuellen Arbeiten auf Methoden wie LLM-as-a-Judge stützen, wird auch die Zuverlässigkeit dieses alleinigen Ansatzes in Frage gestellt. In dieser Arbeit formulieren wir die Zitatauswertung als Problem der Zitatzuordnungsübereinstimmung neu, bei dem bewertet wird, ob die von LLMs generierten Zitate mit denen übereinstimmen, die ein menschlicher Autor für denselben Text verwenden würde. Wir schlagen CiteGuard vor, ein abrufbewusstes Agenten-Framework, das eine verlässlichere Grundlage für die Zitatvalidierung bieten soll. CiteGuard verbessert die bisherige Baseline um 12,3 % und erreicht eine Genauigkeit von bis zu 65,4 % auf dem CiteME-Benchmark, was in etwa der menschlichen Leistung (69,7 %) entspricht. Es ermöglicht zudem die Identifikation alternativer, aber dennoch gültiger Zitate.
MeanFlow hat sich kürzlich als leistungsstarkes Framework für Few-Step-Generativmodellierung aus dem Nichts erwiesen, doch sein Erfolg ist noch nicht vollständig verstanden. In dieser Arbeit zeigen wir, dass sich das MeanFlow-Ziel natürlich in zwei Teile zerlegt: Trajektorien-Flow-Matching und Trajektorien-Konsistenz. Durch Gradientenanalyse stellen wir fest, dass diese Terme stark negativ korreliert sind, was zu Optimierungskonflikten und langsamer Konvergenz führt. Aufbauend auf diesen Erkenntnissen führen wir alpha-Flow ein, eine breite Familie von Zielen, die Trajektorien-Flow-Matching, Shortcut Model und MeanFlow in einer Formel vereint. Durch die Anwendung einer Curriculum-Strategie, die sanft von Trajektorien-Flow-Matching zu MeanFlow übergeht, entwirrt alpha-Flow die konfligierenden Ziele und erreicht eine bessere Konvergenz. Bei Training aus dem Nichts auf klassekonditionalem ImageNet-1K 256x256 mit reinen DiT-Backbones übertrifft alpha-Flow MeanFlow konsistent über verschiedene Skalen und Einstellungen hinweg. Unser größtes alpha-Flow-XL/2+-Modell erzielt mit reinen DiT-Backbones neue State-of-the-Art-Ergebnisse mit FID-Werten von 2,58 (1-NFE) und 2,15 (2-NFE).
Die Skalierung der Parameteranzahl und der Größe der Trainingsdaten hat sich als wirksame Strategie zur Verbesserung der Leistung großer Sprachmodelle (LLMs) erwiesen. Da diese Modelle jedoch zunehmend leistungsfähiger und weitläufiger eingesetzt werden, sind die Inferenzkosten zu einem dringenden Problem geworden. Trotz ihrer Bedeutung ist der Kompromiss zwischen Modellgenauigkeit und Inferenzeffizienz nach wie vor unzureichend erforscht. In dieser Arbeit untersuchen wir, wie zentrale architektonische Faktoren – die Hidden Size, die Aufteilung der Parameter zwischen MLP und Attention (MLP-zu-Attention-Verhältnis) sowie Grouped-Query-Attention (GQA) – sowohl die Inferenzkosten als auch die Genauigkeit beeinflussen. Wir stellen ein bedingtes Skalierungsgesetz vor, das den Chinchilla-Rahmen um architektonische Informationen erweitert, sowie einen Suchrahmen zur Identifizierung von Architekturen, die gleichzeitig inferenzeffizient und genau sind. Um unseren Ansatz zu validieren, trainieren wir mehr als 200 Modelle mit Parametergrößen von 80M bis 3B und Trainings-Tokens von 8B bis 100B und passen das vorgeschlagene bedingte Skalierungsgesetz an. Unsere Ergebnisse zeigen, dass das bedingte Skalierungsgesetz zuverlässig optimale Architekturentscheidungen vorhersagt und dass die resultierenden Modelle bestehende Open-Source-Baselines übertreffen. Unter dem gleichen Trainingsbudget erreichen optimierte Architekturen im Vergleich zu LLaMA-3.2 eine bis zu 2,1 % höhere Genauigkeit und einen bis zu 42 % höheren Inferenzdurchsatz.
Dies ist keine typische Übersicht über Weltmodelle, sondern ein Leitfaden für diejenigen, die Welten erschaffen wollen. Unser Ziel ist es nicht, jede Arbeit zu katalogisieren, die jemals ein „Weltmodell“ erwähnt hat. Stattdessen folgen wir einem klaren Pfad: von frühen maskierten Modellen, die repräsentationsbasiertes Lernen über Modalitäten hinweg vereinheitlichten, über vereinheitlichte Architekturen, die ein gemeinsames Paradigma teilen, hin zu interaktiven generativen Modellen, die die Handlungs-Wahrnehmungs-Schleife schließen, und schließlich zu speichererweiterten Systemen, die konsistente Welten über die Zeit aufrechterhalten. Wir umgehen lose verwandte Zweige, um uns auf das Wesentliche zu konzentrieren: den generativen Kern, die interaktive Schleife und das Gedächtnissystem. Wir zeigen, dass dies der vielversprechendste Weg zu echten Weltmodellen ist.
Die Tendenz, "Abkürzungen" zu finden und auszunutzen, um Aufgaben zu erledigen, birgt erhebliche Risiken für die zuverlässige Bewertung und den Einsatz großer Sprachmodelle (LLMs). Beispielsweise könnte ein LLM-Agent mit Zugriff auf Unittests fehlschlagende Tests löschen, anstatt den zugrundeliegenden Fehler zu beheben. Ein solches Verhalten untergräbt sowohl die Aussagekraft von Benchmark-Ergebnissen als auch die Zuverlässigkeit von realen LLM-Code-Assistenten. Um dieses Verhalten zu quantifizieren, zu untersuchen und zu mildern, führen wir ImpossibleBench ein, ein Benchmark-Framework, das systematisch die Neigung von LLM-Agents misst, Testfälle auszunutzen. ImpossibleBench erstellt "unmögliche" Varianten von Aufgaben aus bestehenden Benchmarks wie LiveCodeBench und SWE-bench, indem direkte Widersprüche zwischen der natürlichsprachigen Spezifikation und den Unittests eingeführt werden. Wir messen die "Betrugsrate" eines Agents als seine Bestehensrate bei diesen unmöglichen Aufgaben, bei denen jedes Bestehen notwendigerweise eine speifikationsverletzende Abkürzung impliziert. Als praktisches Framework ist ImpossibleBench nicht nur eine Bewertung, sondern ein vielseitiges Werkzeug. Wir demonstrieren seinen Nutzen für: (1) die Untersuchung von Modellverhalten, die feinere Details von Betrugsverhalten aufdeckt – von einfacher Testmodifikation bis hin zu komplexem Operator-Overloading; (2) Context Engineering, das zeigt, wie Prompt, Testzugriff und Feedback-Schleife die Betrugsrate beeinflussen; und (3) die Entwicklung von Monitoring-Tools, indem es eine Testumgebung mit verifizierten trügerischen Lösungen bereitstellt. Wir hoffen, dass ImpossibleBench als nützliches Framework für den Aufbau robusterer und zuverlässigerer LLM-Systeme dient. Unsere Implementierung finden Sie unter https://github.com/safety-research/impossiblebench.
Transformer-basierte großsprachliche Modelle (LLMs) haben bemerkenswerte Erfolge erzielt, doch ihr standardmäßiger Aufmerksamkeitsmechanismus verursacht quadratische Rechen- und Speicherkosten in Bezug auf die Sequenzlänge, was einen großen Engpass für das Training mit langen Kontexten darstellt. Bisherige Arbeiten begegnen dieser Herausforderung in zwei Richtungen: (1) Kernel-Optimierungen, die dichte und sparse Aufmerksamkeitsoperatoren beschleunigen; und (2) Modul-Strategien, oft als verteilte Aufmerksamkeit oder Context Parallel Training bezeichnet, die die Aufmerksamkeitsberechnung über mehrere Geräte skalieren. Systematische Evaluierungen sind jedoch nach wie vor begrenzt: Operator-Vergleiche sind oft unvollständig, während Context-Parallel-Strategien typischerweise frameworkspezifisch sind, mit unklarer Leistungsanalyse über verschiedene Kontexte hinweg. Um diese Lücken zu schließen, schlagen wir einen einheitlichen Benchmark vor, der repräsentative Aufmerksamkeits-Kernel und Context-Parallel-Mechanismen mit einer modularen und erweiterbaren Schnittstelle zur Evaluation integriert. Der Benchmark bewertet Methoden entlang zwei kritischer Dimensionen: (1) Aufmerksamkeitsmasken-Muster, die die Effizienz, Skalierbarkeit und Nutzbarkeit stark beeinflussen, und (2) Sequenzlänge und Verteilungsgrad, die die Leistung unter extrem langen Kontexten beim Training bestimmen. Durch umfassende Experimente auf einem Cluster mit bis zu 96 GPUs ermöglicht unser Benchmark reproduzierbare Vergleiche, hebt methodspezifische Kompromisse hervor und bietet praktische Leitlinien für den Entwurf und den Einsatz von Aufmerksamkeitsmechanismen im Training von LLMs mit langem Kontext.
Teamwork bei komplexen Aufgaben im Arbeitsumfeld erfordert diverse Kommunikationsstrategien, doch aktuellen Multi-Agenten-LLM-Systemen fehlen systematische Frameworks für aufgabenorientierte Kommunikation. Wir stellen Communication to Completion (C2C) vor, ein skalierbares Framework, das diese Lücke durch zwei zentrale Innovationen schließt: (1) den Alignment Factor (AF), eine neuartige Metrik zur Quantifizierung der Aufgabenausrichtung von Agenten, die sich direkt auf die Arbeitseffizienz auswirkt, und (2) ein Sequential Action Framework, das schrittweise Ausführung mit intelligenten Kommunikationsentscheidungen integriert. C2C ermöglicht es Agenten, kostensensible Kommunikationsentscheidungen zu treffen und das Aufgabenverständnis durch gezielte Interaktionen dynamisch zu verbessern. Wir evaluierten C2C an realistischen Codierungs-Workflows über drei Komplexitätsstufen und Teamgrößen von 5 bis 17 Agenten im Vergleich zu Baseline-Modellen ohne Kommunikation und mit festen Schritten. Die Ergebnisse zeigen, dass C2C die Aufgabenbearbeitungszeit um etwa 40% bei akzeptablen Kommunikationskosten reduziert. Das Framework bewältigt alle Aufgaben erfolgreich in Standardkonfigurationen und behält seine Wirksamkeit bei Skalierung bei. C2C etabliert sowohl eine theoretische Grundlage zur Messung der Kommunikationseffektivität in Multi-Agenten-Systemen als auch ein praktisches Framework für komplexe kollaborative Aufgaben.
Wir stellen MSC-Bench vor, einen umfangreichen Benchmark zur Bewertung von mehrstufiger, end-to-end Werkzeugorchestrierung durch LLM-Agents in einem hierarchischen Model-Context-Protocol (MCP)-Ökosystem. Bestehende Benchmarks bewerten Werkzeuge häufig isoliert und ignorieren Herausforderungen wie funktionale Überlappungen und serverübergreifende Orchestrierung, was zu übermäßig optimistischen Bewertungen führt. MSC-Bench schließt diese Lücken, indem Ground Truth durch ‚gleiche Funktionssätze‘ konstruiert wird, was objektive Metriken wie den F1-Score ermöglicht und die Abhängigkeit von LLM-as-a-Judge-Evaluierungen verringert. Als fünfstufiger Lehrplan organisiert, testet es systematisch die Fähigkeiten von Agents – von der Orchestrierung einzelner Werkzeuge bis hin zu komplexer serverübergreifender Planung und Robustheit gegenüber Anfragen außerhalb des Gültigkeitsbereichs. Experimente zeigen, dass rigide Hierarchien die Leistung beeinträchtigen können, wenn keine co-designeten Strategien vorhanden sind, und dass sogar state-of-the-art Agents systematische Schwächen in der Robustheit aufweisen. MSC-Bench bietet einen diagnostischen Rahmen, um diese Grenzen aufzuzeigen und die Entwicklung leistungsfähigerer und effizienterer werkzeugnutzender Agents zu leiten. Der Benchmark und die Ressourcen sind öffentlich verfügbar unter https://github.com/snooow1029/MSC_Bench.
Große Sprachmodelle (LLMs) unterstützen mittlerweile Kontextfenster von mehreren hunderttausend bis zu Millionen von Tokens und ermöglichen Anwendungen wie die Zusammenfassung langer Dokumente, die großflächige Codesynthese, die Beantwortung von Fragen über mehrere Dokumente hinweg und persistente Mehrfachdialoge. Solche erweiterten Kontexte verschärfen jedoch die quadratischen Kosten der Self-Attention, was zu erheblicher Latenz beim autoregressiven Decoding führt. Bestehende Sparse-Attention-Methoden mildern diese Kosten, basieren aber auf heuristischen Mustern, die Schwierigkeiten haben, kritische Key-Value-Paare (KV-Paare) für jede Abfrage abzurufen, was zu Genauigkeitsverlusten führt. Wir stellen Adamas vor, einen leichtgewichtigen yet hocheffizienten Sparse-Attention-Mechanismus für Inferenzen mit langem Kontext. Adamas wendet die Hadamard-Transformation, Bucketisierung und 2-Bit-Kompression an, um kompakte Repräsentationen zu erzeugen, und nutzt Manhattan-Distanz-Schätzung für effiziente Top-k-Auswahlen. Experimente zeigen, dass Adamas die Genauigkeit der Full Attention mit einem Budget von nur 64 Tokens erreicht, bei 128 Tokens nahezu verlustfreie Leistung erzielt und bis zu 8-fach höhere Sparsität als bisherige State-of-the-Art-Methoden (SOTA) unterstützt, wobei es bei Sequenzen der Länge 32K bis zu 4,4-fache Beschleunigungen bei der Self-Attention und 1,5-fache end-to-end-Beschleunigungen liefert. Bemerkenswerterweise erzielt Adamas vergleichbare oder sogar geringere Perplexität als Full Attention, was seine Wirksamkeit bei der Wahrung der Genauigkeit unter aggressiver Sparsity unterstreicht.
Seit dem Aufkommen verschiedener vortrainierter großer Sprachmodelle hat die Extraktion strukturierten Wissens aus wissenschaftlichen Texten einen revolutionären Wandel im Vergleich zu traditionellen Methoden des maschinellen Lernens oder der natürlichen Sprachverarbeitung erfahren. Trotz dieser Fortschritte bleiben zugängliche, automatisierte Werkzeuge, die Nutzern die Konstruktion, Validierung und Visualisierung von Datensätzen aus wissenschaftlicher Literaturextraktion ermöglichen, rar. Daher entwickelten wir ComProScanner, eine autonome Multi-Agenten-Plattform, die die Extraktion, Validierung, Klassifizierung und Visualisierung maschinenlesbarer chemischer Zusammensetzungen und Eigenschaften erleichtert – integriert mit Synthesedaten aus Fachartikeln zur umfassenden Datenbankerstellung. Wir evaluierten unser Framework anhand von 100 Fachartikeln mit 10 verschiedenen LLMs, einschließlich Open-Source- und proprietären Modellen, um hochkomplexe Zusammensetzungen keramischer piezoelektrischer Materialien und entsprechende piezoelektrische Spannungskoeffizienten (d33) zu extrahieren, motiviert durch das Fehlen eines großen Datensatzes für solche Materialien. DeepSeek-V3-0324 übertraf alle Modelle mit einer signifikanten Gesamtgenauigkeit von 0,82. Dieses Framework bietet ein einfaches, benutzerfreundliches, sofort einsetzbares Paket zur Extraktion hochkomplexer experimenteller Daten aus der Literatur, um Datensätze für maschinelles Lernen oder Deep Learning aufzubauen.
Aktuelle Untersuchungen mittels Probing zeigen, dass große Sprachmodelle lineare Unterräume aufweisen, die wahre von falschen Aussagen trennen, doch der Mechanismus hinter ihrer Entstehung bleibt unklar. Wir stellen ein transparentes Transformator-Toymodell mit einer Schicht vor, das solche Wahrheitsunterräume end-to-end reproduziert und einen konkreten Entstehungsweg aufzeigt. Wir untersuchen ein einfaches Szenario, in dem sich eine Wahrheitskodierung entwickeln kann: eine Datenverteilung, bei der faktische Aussagen mit anderen faktischen Aussagen auftreten (und umgekehrt), was das Modell anregt, diese Unterscheidung zu erlernen, um den Sprachmodellverlust für folgende Tokens zu verringern. Dieses Muster bestätigen wir durch Experimente mit vortrainierten Sprachmodellen. Schließlich beobachten wir im Toy-Setting eine zweiphasige Lern-Dynamik: Netzwerke speichern zunächst in wenigen Schritten einzelne Faktenzuordnungen, bevor sie – über einen längeren Zeitraum – lernen, wahr von falsch linear zu trennen, was wiederum den Sprachmodellierungsverlust senkt. Zusammen liefern diese Ergebnisse sowohl einen mechanistischen Nachweis als auch eine empirische Begründung dafür, wie und warum lineare Wahrheitsrepräsentationen in Sprachmodellen entstehen können.