papers.description
Wir präsentieren Story2Board, ein trainingsfreies Framework für die expressive Erstellung von Storyboards aus natürlicher Sprache. Bestehende Methoden konzentrieren sich eng auf die Identität des Subjekts und übersehen dabei Schlüsselaspekte des visuellen Geschichtenerzählens wie räumliche Komposition, Hintergrundentwicklung und erzählerische Geschwindigkeit. Um dies zu adressieren, führen wir ein leichtgewichtiges Konsistenzframework ein, das aus zwei Komponenten besteht: Latent Panel Anchoring, das eine gemeinsame Charakterreferenz über Panels hinweg bewahrt, und Reciprocal Attention Value Mixing, das visuelle Merkmale zwischen Token-Paaren mit starker reziproker Aufmerksamkeit sanft vermischt. Zusammen verbessern diese Mechanismen die Kohärenz ohne architektonische Änderungen oder Feinabstimmung, wodurch State-of-the-Art-Diffusionsmodelle in der Lage sind, visuell vielfältige und dennoch konsistente Storyboards zu generieren. Um die Generierung zu strukturieren, verwenden wir ein Standard-Sprachmodell, um freiformulierte Geschichten in fundierte Panel-Level-Prompts umzuwandeln. Zur Bewertung schlagen wir den Rich Storyboard Benchmark vor, eine Sammlung von Open-Domain-Narrativen, die darauf abzielen, Layoutvielfalt und hintergrundbasiertes Geschichtenerzählen zusätzlich zur Konsistenz zu bewerten. Wir führen auch eine neue Scene Diversity-Metrik ein, die räumliche und Pose-Variationen über Storyboards hinweg quantifiziert. Unsere qualitativen und quantitativen Ergebnisse sowie eine Nutzerstudie zeigen, dass Story2Board dynamischere, kohärentere und erzählerisch ansprechendere Storyboards erzeugt als bestehende Baselines.
Große Sprachmodelle (LLMs), insbesondere Modelle mit expliziter Langkette von Gedanken (Explicit Long Chain-of-Thought, CoT) wie DeepSeek-R1 und QWQ, haben beeindruckende Fähigkeiten im Bereich des logischen Schließens unter Beweis gestellt und dabei bemerkenswerte Leistungen im Bereich des gesunden Menschenverstands und der mathematischen Inferenz erzielt. Trotz ihrer Effektivität werden Long-CoT-Modelle oft für ihre begrenzten Fähigkeiten und geringe Effizienz in wissensintensiven Domänen wie der Molekülentdeckung kritisiert. Erfolg in diesem Bereich erfordert ein präzises Verständnis von Domänenwissen, einschließlich molekularer Strukturen und chemischer Prinzipien, was aufgrund der inhärenten Komplexität molekularer Daten und der Knappheit hochwertiger Expertenannotationen eine Herausforderung darstellt. Um diese Lücke zu schließen, führen wir Mol-R1 ein, ein neuartiges Framework, das darauf abzielt, die Erklärbarkeit und die Schließungsleistung von R1-ähnlichen Explicit Long-CoT-LLMs bei der textbasierten Molekülgenerierung zu verbessern. Unser Ansatz beginnt mit einem hochwertigen Schließungsdatensatz, der durch Prior Regulation via In-context Distillation (PRID) kuratiert wurde, einer speziellen Destillationsstrategie, um effektiv gepaarte Schließungsspuren zu generieren, die durch vorherige Regulierungen geleitet werden. Darauf aufbauend führen wir MoIA, Molecular Iterative Adaptation, eine ausgefeilte Trainingsstrategie ein, die iterativ Supervised Fine-tuning (SFT) mit Reinforced Policy Optimization (RPO) kombiniert, um die Schließungsleistung von R1-ähnlichen Modellen für die Molekülentdeckung zu steigern. Schließlich untersuchen wir die Leistung von Mol-R1 in der Aufgabe der textbasierten Molekülschließungsgenerierung und zeigen dabei eine überlegene Leistung im Vergleich zu bestehenden Baselines.
Die Erzeugung hochwertiger menschlicher Videos, die benutzerdefinierten Identitäten entsprechen, ist im Bereich der generativen KI wichtig, aber auch herausfordernd. Bestehende Methoden verlassen sich oft auf eine übermäßige Anzahl von Trainingsparametern und weisen keine Kompatibilität mit anderen AIGC-Tools auf. In diesem Artikel schlagen wir Stand-In vor, ein leichtgewichtiges und Plug-and-Play-fähiges Framework zur Identitätserhaltung bei der Videogenerierung. Konkret führen wir einen konditionalen Bildzweig in das vortrainierte Videogenerierungsmodell ein. Die Identitätskontrolle wird durch eingeschränkte Selbstaufmerksamkeiten mit konditionaler Positionsabbildung erreicht und kann mit nur 2000 Paaren schnell erlernt werden. Obwohl nur etwa 1\% zusätzliche Parameter integriert und trainiert werden, erzielt unser Framework hervorragende Ergebnisse in Bezug auf Videoqualität und Identitätserhaltung und übertrifft andere Methoden mit vollständigem Parametertraining. Darüber hinaus kann unser Framework nahtlos für andere Aufgaben integriert werden, wie subjektgesteuerte Videogenerierung, posenbezogene Videogenerierung, Stilisierung und Gesichtstausch.
Wir stellen M3-Agent vor, ein neuartiges multimodales Agenten-Framework, das mit Langzeitgedächtnis ausgestattet ist. Wie der Mensch kann M3-Agent Echtzeit-Eingaben aus visuellen und auditiven Quellen verarbeiten, um sein Langzeitgedächtnis aufzubauen und zu aktualisieren. Über episodisches Gedächtnis hinaus entwickelt es auch semantisches Gedächtnis, wodurch es Weltwissen im Laufe der Zeit ansammeln kann. Sein Gedächtnis ist in einem entitätszentrierten, multimodalen Format organisiert, was ein tieferes und konsistenteres Verständnis der Umgebung ermöglicht. Bei einer Anweisung führt M3-Agent autonom mehrstufiges, iteratives Denken durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Gedächtniseffektivität und gedächtnisbasiertes Denken in multimodalen Agenten zu bewerten, entwickeln wir M3-Bench, einen neuen Benchmark für Fragen und Antworten zu langen Videos. M3-Bench umfasst 100 neu aufgenommene reale Videos aus der Perspektive eines Roboters (M3-Bench-robot) und 929 web-basierte Videos aus verschiedenen Szenarien (M3-Bench-web). Wir annotieren Frage-Antwort-Paare, die darauf abzielen, Schlüsselkompetenzen für Agentenanwendungen zu testen, wie z.B. menschliches Verständnis, Extraktion von Allgemeinwissen und cross-modales Denken. Experimentelle Ergebnisse zeigen, dass M3-Agent, das durch Reinforcement Learning trainiert wurde, den stärksten Baseline-Agenten, der Gemini-1.5-pro und GPT-4o verwendet, übertrifft und dabei eine um 6,7 %, 7,7 % bzw. 5,3 % höhere Genauigkeit auf M3-Bench-robot, M3-Bench-web und VideoMME-long erzielt. Unsere Arbeit bringt multimodale Agenten einem menschenähnlicheren Langzeitgedächtnis näher und liefert Einblicke in deren praktisches Design. Modell, Code und Daten sind verfügbar unter https://github.com/bytedance-seed/m3-agent.
Diffusion Large Language Models (dLLMs) haben sich als vielversprechende Alternative zu autoregressiven (AR) LLMs für die Textgenerierung erwiesen, mit dem Potenzial, mehrere Tokens in einer einzigen Iteration zu dekodieren. Allerdings hat keines der bestehenden Open-Source-dLLMs eine überlegene Inferenzgeschwindigkeit gegenüber AR LLMs ähnlicher Größe erreicht. Dieses Papier durchbricht diese Barriere basierend auf einer einfachen und effektiven Strategie namens Discrete Diffusion Forcing (D2F). D2F stattet dLLMs mit zwei Schlüsselfähigkeiten aus: (1) blockweise autoregressive Generierung, um die Nutzung des KV-Caches zu ermöglichen; (2) Vorhersage nachfolgender Tokens, ohne die Vervollständigung vorheriger Blöcke für die interblockparallele Dekodierung zu erfordern. Auf diese Weise werden die herkömmlichen dLLMs in ein AR-Diffusion-Hybridparadigma für effiziente Inferenz umgewandelt. D2F kann mit einem asymmetrischen Distillationsprozess auf Basis vortrainierter dLLMs implementiert werden. Wir schlagen weiterhin einen pipelined parallelen Dekodierungsalgorithmus vor, der einen Kompromiss zwischen Effizienz und Effektivität ermöglicht. Empirisch erreichen D2F-dLLMs eine mehr als 2,5-fache Inferenzgeschwindigkeit im Vergleich zu LLaMA3 und Qwen2.5 auf GSM8K. Im Vergleich zu herkömmlichen dLLMs wie LLaDA und Dream kann die Beschleunigung mehr als 50-fach betragen, während die Ausgabequalität vergleichbar bleibt. Der Code ist verfügbar unter https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
Die rasante Weiterentwicklung großer Sprachmodelle (LLMs) hat intelligente Agenten befähigt, diverse externe Werkzeuge zur Lösung komplexer realer Probleme zu nutzen. Da Agenten jedoch zunehmend auf mehrere Werkzeuge angewiesen sind, sehen sie sich neuen Herausforderungen gegenüber: erweiterte Kontexte aus unterschiedlichen Quellen sowie verrauschte oder irrelevante Werkzeugausgaben können die Zuverlässigkeit und Genauigkeit des Systems beeinträchtigen. Diese Herausforderungen unterstreichen die Notwendigkeit einer verbesserten Stabilität in agentenbasierten Systemen. Um dies zu adressieren, führen wir dynamische Überwachungs- und Steuerungsmechanismen ein und konstruieren eine robuste und dynamische Multi-Agenten-System (MAS)-Architektur innerhalb des AWorld-Frameworks. In unserem Ansatz ruft der Ausführungsagent den Wächteragenten in kritischen Schritten auf, um den Denkprozess zu überprüfen und zu korrigieren, wodurch effektiv Fehler durch Rauschen reduziert und die Problemlösungsrobustheit gestärkt wird. Umfangreiche Experimente mit dem GAIA-Testdatensatz zeigen, dass unser dynamischer Steuerungsmechanismus sowohl die Effektivität als auch die Stabilität der Lösungen signifikant verbessert und dabei Einzelagentensysteme (SAS) sowie standardmäßige werkzeuggestützte Systeme übertrifft. Infolgedessen erreichte unser dynamisches MAS-System den ersten Platz unter den Open-Source-Projekten auf der renommierten GAIA-Rangliste. Diese Ergebnisse unterstreichen den praktischen Wert kollaborativer Agentenrollen bei der Entwicklung zuverlässigerer und vertrauenswürdigerer intelligenter Systeme.
Kürzlich hat GPT-4o aufgrund seiner starken Leistung in der Bildgenerierung erhebliche Aufmerksamkeit erregt, doch Open-Source-Modelle hinken noch hinterher. Mehrere Studien haben die Extraktion von Bilddaten aus GPT-4o untersucht, um Open-Source-Modelle zu verbessern, und dabei bemerkenswerte Fortschritte erzielt. Dennoch bleibt eine zentrale Frage: Da reale Bilddatensätze bereits eine natürliche Quelle hochwertiger Daten darstellen, warum sollten wir synthetische Daten von GPT-4o verwenden? In dieser Arbeit identifizieren wir zwei wesentliche Vorteile synthetischer Bilder. Erstens können sie seltene Szenarien in realen Datensätzen ergänzen, wie surrealistische Fantasien oder Multi-Referenz-Bildgenerierung, die häufig in Benutzeranfragen auftreten. Zweitens bieten sie saubere und kontrollierbare Supervision. Reale Daten enthalten oft komplexes Hintergrundrauschen und inhärente Fehlausrichtungen zwischen Textbeschreibungen und Bildinhalten, während synthetische Bilder reine Hintergründe und langschwänzige Supervisionssignale bieten, was eine präzisere Text-zu-Bild-Ausrichtung ermöglicht. Aufbauend auf diesen Erkenntnissen stellen wir Echo-4o-Image vor, einen 180K-großen synthetischen Datensatz, der von GPT-4o generiert wurde und die Kraft synthetischer Bilddaten nutzt, um blinde Flecken in der realen Abdeckung zu adressieren. Mit diesem Datensatz feintunen wir das einheitliche multimodale Generierungs-Basismodell Bagel, um Echo-4o zu erhalten. Zusätzlich schlagen wir zwei neue Evaluierungsbenchmarks vor, um die Bildgenerierungsfähigkeiten genauer und herausfordernder zu bewerten: GenEval++, das die Komplexität der Anweisungen erhöht, um die Punktesättigung zu mildern, und Imagine-Bench, das sich auf die Bewertung des Verständnisses und der Generierung von kreativem Inhalt konzentriert. Echo-4o zeigt eine starke Leistung über Standardbenchmarks hinweg. Darüber hinaus führt die Anwendung von Echo-4o-Image auf andere Basismodelle (z.B. OmniGen2, BLIP3-o) zu konsistenten Leistungssteigerungen über mehrere Metriken hinweg, was die starke Übertragbarkeit des Datensatzes unterstreicht.
Alignment-Methodologien haben sich als entscheidender Weg zur Verbesserung der Ausrichtungsfähigkeiten von Sprachmodellen herausgestellt. Während SFT (Supervised Fine-Tuning) die Konvergenz durch direkte Token-Level-Verlustintervention beschleunigt, ist seine Wirksamkeit durch die Offline-Policy-Trajektorie eingeschränkt. Im Gegensatz dazu ermöglicht RL (Reinforcement Learning) eine explorative Policy-Optimierung, leidet jedoch unter geringer Probeneffizienz und einer starken Abhängigkeit von hochwertigen Basismodellen. Um diese doppelten Herausforderungen zu bewältigen, schlagen wir GRAO (Group Relative Alignment Optimization) vor, ein einheitliches Framework, das die jeweiligen Stärken von SFT und RL durch drei Schlüsselinnovationen kombiniert: 1) Eine Multi-Sample-Generierungsstrategie, die eine vergleichende Qualitätsbewertung durch Belohnungsfeedback ermöglicht; 2) Eine neuartige Formulierung des Group Direct Alignment Loss, die intra-gruppenrelative Vorteilsgewichtung nutzt; 3) Referenzbewusste Parameteraktualisierungen, die durch paarweise Präferenzdynamiken geleitet werden. Unsere theoretische Analyse bestätigt die Konvergenzgarantien und die Probeneffizienzvorteile von GRAO gegenüber konventionellen Ansätzen. Umfassende Bewertungen über komplexe menschliche Ausrichtungsaufgaben demonstrieren die überlegene Leistung von GRAO, mit relativen Verbesserungen von 57,70 %, 17,65 %, 7,95 % und 5,18 % gegenüber den SFT-, DPO-, PPO- und GRPO-Baselines. Diese Arbeit bietet sowohl ein theoretisch fundiertes Alignment-Framework als auch empirische Belege für eine effiziente Fähigkeitsentwicklung in Sprachmodellen.
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten im Bereich des visuellen mathematischen Denkens in verschiedenen bestehenden Benchmarks demonstriert. Diese Benchmarks basieren jedoch überwiegend auf sauberen oder verarbeiteten multimodalen Eingaben, ohne die Bilder zu berücksichtigen, die von realen Nutzern aus dem Kindergarten bis zur 12. Klasse (K-12) im Bildungsbereich bereitgestellt werden. Um diese Lücke zu schließen, stellen wir MathReal vor, einen sorgfältig kuratierten Datensatz, der 2.000 mathematische Fragen mit Bildern umfasst, die mit mobilen Handgeräten in authentischen Szenarien aufgenommen wurden. Jede Frage besteht aus einem Bild, das den Fragetext und ein visuelles Element enthält. Wir klassifizieren die realen Bilder systematisch in drei Hauptkategorien: Bildqualitätsverschlechterung, Perspektivenvariation und Störung durch irrelevante Inhalte, die weiter in 14 Unterkategorien unterteilt werden. Zusätzlich umfasst MathReal fünf Kernwissens- und Fähigkeitskategorien, die drei Fragentypen abdecken und in drei Schwierigkeitsgrade unterteilt sind. Um die multimodalen mathematischen Denkfähigkeiten modernster MLLMs in realen Szenarien umfassend zu bewerten, entwerfen wir sechs experimentelle Settings, die eine systematische Analyse ihrer Leistung ermöglichen. Durch umfangreiche Experimente stellen wir fest, dass die Problemlösungsfähigkeiten bestehender MLLMs in realistischen Bildungskontexten erheblich herausgefordert werden. Basierend darauf führen wir eine detaillierte Analyse ihrer Leistung und Fehlermuster durch, liefern Einblicke in ihre Erkennungs-, Verständnis- und Denkfähigkeiten und skizzieren Richtungen für zukünftige Verbesserungen. Daten und Code: https://github.com/junfeng0288/MathReal.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Denkaufgaben gezeigt, wobei Reinforcement Learning (RL) als Schlüsselalgorithmus zur Verbesserung ihrer Denkfähigkeiten dient. Derzeit gibt es zwei gängige Belohnungsparadigmen: modellbasierte Belohnungen und regelbasierte Belohnungen. Beide Ansätze weisen jedoch Einschränkungen auf: Regelbasierte Belohnungen fehlt es an Robustheit, während modellbasierte Belohnungen anfällig für Reward Hacking sind. Um diese Probleme zu lösen, schlagen wir Cooper (Co-optimizing Policy Model and Reward Model) vor, ein RL-Framework, das sowohl das Policy-Modell als auch das Belohnungsmodell gemeinsam optimiert. Cooper nutzt die hohe Präzision regelbasierter Belohnungen bei der Identifizierung korrekter Antworten und konstruiert und selektiert dynamisch Positiv-Negativ-Beispielpaare für das kontinuierliche Training des Belohnungsmodells. Dieser Ansatz erhöht die Robustheit und mindert das Risiko von Reward Hacking. Um Cooper weiter zu unterstützen, führen wir eine hybride Annotationsstrategie ein, die effizient und präzise Trainingsdaten für das Belohnungsmodell generiert. Wir schlagen außerdem ein referenzbasiertes Belohnungsmodellierungsparadigma vor, bei dem das Belohnungsmodell eine Referenzantwort als Eingabe erhält. Basierend auf diesem Design trainieren wir ein Belohnungsmodell namens VerifyRM, das auf VerifyBench eine höhere Genauigkeit im Vergleich zu anderen Modellen gleicher Größe erreicht. Wir führen Reinforcement Learning sowohl mit VerifyRM als auch mit Cooper durch. Unsere Experimente zeigen, dass Cooper nicht nur Reward Hacking reduziert, sondern auch die end-to-end RL-Leistung verbessert, beispielsweise mit einem durchschnittlichen Genauigkeitsgewinn von 0,54 % bei Qwen2.5-1.5B-Instruct. Unsere Ergebnisse demonstrieren, dass die dynamische Aktualisierung des Belohnungsmodells ein effektiver Weg ist, um Reward Hacking zu bekämpfen, und bieten eine Referenz für die bessere Integration von Belohnungsmodellen in RL.
Das neue Paradigma des Testzeit-Skalierens hat bemerkenswerte Durchbrüche in Large Language Models (LLMs) (z.B. Reasoning-Modelle) und in generativen Vision-Modellen erzielt, wodurch Modelle zusätzliche Berechnungen während der Inferenz zuweisen können, um zunehmend komplexe Probleme effektiv zu bewältigen. Trotz der Verbesserungen durch diesen Ansatz ergibt sich eine wichtige Einschränkung: Der erhebliche Anstieg der Berechnungszeit macht den Prozess langsam und unpraktisch für viele Anwendungen. Angesichts des Erfolgs dieses Paradigmas und seiner zunehmenden Verwendung streben wir an, seine Vorteile zu bewahren, während wir den Inferenz-Overhead vermeiden. In dieser Arbeit schlagen wir eine Lösung für das kritische Problem der Integration von Testzeit-Skalierungs-Wissen in ein Modell während des Post-Trainings vor. Konkret ersetzen wir die belohnungsgesteuerte Testzeit-Rauschoptimierung in Diffusionsmodellen durch ein Noise-Hypernetwork, das das anfängliche Eingangsrauschen moduliert. Wir schlagen einen theoretisch fundierten Rahmen für das Lernen dieser belohnungsgeneigten Verteilung für destillierte Generatoren vor, durch ein handhabbares Rauschraum-Ziel, das die Treue zum Basismodell bewahrt, während es für gewünschte Eigenschaften optimiert. Wir zeigen, dass unser Ansatz einen erheblichen Teil der Qualitätsgewinne aus der expliziten Testzeit-Optimierung bei einem Bruchteil der Berechnungskosten wiederherstellt. Der Code ist verfügbar unter https://github.com/ExplainableML/HyperNoise.
Vision-Language-Modelle (VLMs) haben bedeutende Fortschritte bei Aufgaben wie der visuellen Verankerung gezeigt, bei der sie spezifische Objekte in Bildern basierend auf natürlichen Sprachabfragen und Bildern lokalisieren. Sicherheitsprobleme bei visuellen Verankerungsaufgaben für VLMs bleiben jedoch weitgehend unerforscht, insbesondere im Kontext von Backdoor-Angriffen. In diesem Artikel stellen wir eine neuartige, eingabeabhängige Backdoor-Angriffsmethode namens IAG vor, die darauf abzielt, das Verankerungsverhalten von VLMs zu manipulieren. Dieser Angriff zwingt das Modell dazu, ein bestimmtes Zielobjekt im Eingabebild zu verankern, unabhängig von der Benutzerabfrage. Wir schlagen einen adaptiven Trigger-Generator vor, der die semantischen Informationen der Beschreibung des Angriffsziels mithilfe eines textkonditionierten U-Nets in das Originalbild einbettet und somit die Herausforderung des offenen Vokabulars bei Angriffen überwindet. Um die Unauffälligkeit des Angriffs zu gewährleisten, verwenden wir einen Rekonstruktionsverlust, um visuelle Unterschiede zwischen vergifteten und sauberen Bildern zu minimieren. Zusätzlich führen wir eine einheitliche Methode zur Generierung von Angriffsdaten ein. IAG wird theoretisch und empirisch evaluiert, wobei seine Machbarkeit und Wirksamkeit nachgewiesen wird. Bemerkenswert ist, dass unser ASR@0.5 auf InternVL-2.5-8B auf verschiedenen Testdatensätzen über 65 % erreicht. IAG zeigt auch vielversprechendes Potenzial bei der Manipulation von Ferret-7B und LlaVA-1.5-7B mit nur sehr geringer Genauigkeitsabnahme bei sauberen Proben. Umfangreiche spezifische Experimente, wie Ablationsstudien und potenzielle Verteidigungsmaßnahmen, belegen ebenfalls die Robustheit und Übertragbarkeit unseres Angriffs.
Multimodale große Sprachmodelle (MLLMs) haben die Integration von visuellem und textuellem Verständnis erheblich vorangetrieben. Ihre Fähigkeit, Code aus multimodalen Eingaben zu generieren, bleibt jedoch begrenzt. In dieser Arbeit stellen wir VisCodex vor, ein einheitliches Framework, das nahtlos Vision- und Codierungs-Sprachmodelle vereint, um MLLMs mit starken Fähigkeiten zur multimodalen Codegeneration auszustatten. Durch die Nutzung einer auf Aufgabenvektoren basierenden Modellzusammenführungstechnik integrieren wir ein state-of-the-art Codierungs-LLM in ein leistungsstarkes Vision-Sprachmodell, wobei sowohl das visuelle Verständnis als auch fortgeschrittene Codierungsfähigkeiten erhalten bleiben. Zur Unterstützung von Training und Evaluation führen wir das Multimodal Coding Dataset (MCD) ein, eine umfangreiche und vielfältige Sammlung von 598k Proben, die hochwertigen HTML-Code, Diagramm-Bild-Code-Paare, bildergestützte StackOverflow-QA und algorithmische Probleme umfasst. Darüber hinaus schlagen wir InfiBench-V vor, einen neuartigen und anspruchsvollen Benchmark, der speziell entwickelt wurde, um Modelle anhand von visuell anspruchsvollen, realen Programmierfragen zu bewerten, die ein differenziertes Verständnis sowohl von textuellen als auch von visuellen Kontexten erfordern. Umfangreiche Experimente zeigen, dass VisCodex state-of-the-art Leistungen unter Open-Source-MLLMs erreicht und sich proprietären Modellen wie GPT-4o annähert, was die Wirksamkeit unserer Modellzusammenführungsstrategie und der neuen Datensätze unterstreicht.
Jüngste Fortschritte in Text-zu-Bild (T2I)-Modellen haben das trainierungsfreie regionale Bildbearbeiten ermöglicht, indem die generativen Prioritäten von Foundation-Modellen genutzt werden. Allerdings haben bestehende Methoden Schwierigkeiten, die Texttreue in bearbeiteten Bereichen, die Kontexttreue in unveränderten Bereichen und die nahtlose Integration von Bearbeitungen in Einklang zu bringen. Wir stellen CannyEdit vor, ein neuartiges trainierungsfreies Framework, das diese Herausforderungen durch zwei Schlüsselinnovationen adressiert: (1) Selektive Canny-Steuerung, welche die strukturelle Führung von Canny ControlNet in benutzerdefinierten bearbeitbaren Bereichen maskiert, während die Details der Quellbilder in unveränderten Bereichen durch die Inversionsphasen-Informationen von ControlNet strikt bewahrt werden. Dies ermöglicht präzise, textgesteuerte Bearbeitungen ohne Beeinträchtigung der kontextuellen Integrität. (2) Dual-Prompt-Führung, die lokale Prompts für objektspezifische Bearbeitungen mit einem globalen Zielprompt kombiniert, um kohärente Szeneninteraktionen zu erhalten. Bei realen Bildbearbeitungsaufgaben (Hinzufügen, Ersetzen, Entfernen) übertrifft CannyEdit vorherige Methoden wie KV-Edit und erreicht eine Verbesserung von 2,93 bis 10,49 Prozent in der Balance zwischen Texttreue und Kontexttreue. In Bezug auf die Nahtlosigkeit der Bearbeitungen zeigen Benutzerstudien, dass nur 49,2 Prozent der allgemeinen Benutzer und 42,0 Prozent der AIGC-Experten die Ergebnisse von CannyEdit als KI-bearbeitet identifizierten, wenn sie mit unveränderten realen Bildern gepaart wurden, im Vergleich zu 76,08 bis 89,09 Prozent bei konkurrierenden Methoden.
Im sich rasant entwickelnden Bereich der erklärbaren Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) sind textbasierte Erklärungen, d. h. menschenähnliche Begründungen, entscheidend, um Modellvorhersagen zu erklären und Datensätze mit interpretierbaren Labels anzureichern. Traditionelle Ansätze stützen sich auf menschliche Annotationen, die kostspielig, arbeitsintensiv sind und die Skalierbarkeit behindern. In dieser Arbeit präsentieren wir ein automatisiertes Framework, das mehrere state-of-the-art Large Language Models (LLMs) nutzt, um hochwertige textbasierte Erklärungen zu generieren. Wir bewerten die Qualität dieser LLM-generierten Erklärungen rigoros anhand einer umfassenden Suite von Metriken zur Erzeugung natürlicher Sprache (Natural Language Generation, NLG). Darüber hinaus untersuchen wir die Auswirkungen dieser Erklärungen auf die Leistung vortrainierter Sprachmodelle (Pre-trained Language Models, PLMs) und LLMs bei Aufgaben zur natürlichen Sprachinferenz auf zwei diversen Benchmark-Datensätzen. Unsere Experimente zeigen, dass automatisierte Erklärungen im Vergleich zu menschlich annotierten Erklärungen eine äußerst wettbewerbsfähige Effektivität bei der Verbesserung der Modellleistung aufweisen. Unsere Ergebnisse unterstreichen einen vielversprechenden Ansatz für die skalierbare, automatisierte Generierung textbasierter Erklärungen auf LLM-Basis, um NLP-Datensätze zu erweitern und die Modellleistung zu steigern.
In den letzten Jahren ist das Interesse an und die Nutzung von LLMs (Large Language Models) stetig gewachsen, wobei muTransfer sich als eine Schlüsseltechnik zur Optimierung von Hyperparametern im groß angelegten Training etabliert hat. Gleichzeitig hat sich Mixture-of-Experts (MoE) als eine führende Architektur für extrem große Modelle herausgestellt. Die Schnittstelle zwischen diesen beiden Fortschritten wurde jedoch bisher nicht erforscht. In dieser Arbeit leiten wir eine mu-Parametrisierung (muP) für MoE ab und liefern theoretische Garantien für das Feature-Learning über verschiedene Modellbreiten hinweg, sowohl im Router als auch in den Experten. Wir validieren unsere Parametrisierung empirisch und untersuchen weiterhin, wie die Skalierung der Anzahl von Experten und der Granularität die optimale Lernrate beeinflusst.
Große Sprachmodelle, die mit bestärkendem Lernen und überprüfbaren Belohnungen trainiert werden, neigen dazu, Genauigkeit gegen Länge einzutauschen – sie blähen die Antwortlängen auf, um Genauigkeitsgewinne zu erzielen. Während längere Antworten bei schwierigeren Problemen gerechtfertigt sein mögen, sind viele Token lediglich „Füllmaterial“: sich wiederholender, umständlicher Text, der keinen wirklichen Fortschritt bringt. Wir stellen GFPO (Group Filtered Policy Optimization) vor, das diese Längenexplosion eindämmt, indem während des Trainings größere Gruppen pro Problem abgetastet und Antworten basierend auf zwei Schlüsselmetriken gefiltert werden, um darauf zu trainieren: (1) Antwortlänge und (2) Token-Effizienz: das Verhältnis von Belohnung pro Token. Durch das Abtasten von mehr Daten während des Trainings lehren wir Modelle, bei der Inferenz weniger zu denken. Beim Phi-4-Reasoning-Modell reduziert GFPO die Längeninflation von GRPO um 46-71 % über anspruchsvolle STEM- und Coding-Benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) hinweg, während die Genauigkeit erhalten bleibt. Die Optimierung für Belohnung pro Token steigert die Reduktion der Längeninflation weiter auf 71-85 %. Wir schlagen auch Adaptive Difficulty GFPO vor, das dynamisch mehr Trainingsressourcen für schwierigere Probleme basierend auf Echtzeit-Schwierigkeitsschätzungen zuweist und so das Gleichgewicht zwischen Recheneffizienz und Genauigkeit insbesondere bei schwierigen Fragen verbessert. GFPO zeigt, dass erhöhter Rechenaufwand während des Trainings direkt zu reduziertem Rechenaufwand während des Tests führt – ein einfacher, aber effektiver Kompromiss für effizientes Schließen.
Die Rekonstruktion von 3D-Szenen mittels 3D Gaussian Splatting (3DGS) aus spärlichen Ansichten ist ein schlecht gestelltes Problem aufgrund unzureichender Informationen, was oft zu sichtbaren Artefakten führt. Während neuere Ansätze versucht haben, generative Prioritäten zu nutzen, um Informationen für unterbestimmte Regionen zu vervollständigen, haben sie Schwierigkeiten, Inhalte zu erzeugen, die mit den Eingabe-Beobachtungen konsistent bleiben. Um diese Herausforderung zu bewältigen, schlagen wir GSFixer vor, ein neuartiges Framework, das darauf abzielt, die Qualität von 3DGS-Darstellungen, die aus spärlichen Eingaben rekonstruiert wurden, zu verbessern. Der Kern unseres Ansatzes ist das referenzgestützte Video-Restaurationsmodell, das auf einem DiT-basierten Video-Diffusionsmodell basiert, das auf gepaarten 3DGS-Renderings mit Artefakten und sauberen Frames mit zusätzlichen referenzbasierten Bedingungen trainiert wurde. Indem wir die spärlichen Eingabeansichten als Referenzen betrachten, integriert unser Modell sowohl 2D-semantische als auch 3D-geometrische Merkmale der Referenzansichten, die aus dem visuellen Geometrie-Foundation-Modell extrahiert wurden, und verbessert so die semantische Kohärenz und 3D-Konsistenz bei der Korrektur von Artefakten in neuen Ansichten. Darüber hinaus präsentieren wir angesichts des Mangels an geeigneten Benchmarks für die Bewertung der 3DGS-Artefakt-Restaurierung DL3DV-Res, das Artefakt-Frames enthält, die mit qualitativ minderwertigem 3DGS gerendert wurden. Umfangreiche Experimente zeigen, dass unser GSFixer aktuelle state-of-the-art Methoden in der 3DGS-Artefakt-Restaurierung und der 3D-Rekonstruktion aus spärlichen Ansichten übertrifft. Projektseite: https://github.com/GVCLab/GSFixer.
Dieses Papier präsentiert die erste dezentrale Methode zur Echtzeit-Manipulation einer kabelaufgehängten Last mit sechs Freiheitsgraden (6-DoF) durch ein Team von Mikro-Luftfahrzeugen (MAVs). Unsere Methode nutzt Multi-Agenten-Reinforcement-Learning (MARL), um eine äußere Regelungspolitik für jedes MAV zu trainieren. Im Gegensatz zu modernsten Reglern, die ein zentralisiertes Schema verwenden, benötigt unsere Politik weder globale Zustände, Kommunikation zwischen den MAVs noch Informationen über benachbarte MAVs. Stattdessen kommunizieren die Agenten implizit allein durch Beobachtungen der Lastpose, was hohe Skalierbarkeit und Flexibilität ermöglicht. Dies reduziert auch die Rechenkosten während der Inferenzzeit erheblich und ermöglicht die Onboard-Bereitstellung der Politik. Zusätzlich führen wir einen neuen Aktionsraum für die MAVs ein, der lineare Beschleunigung und Körperraten verwendet. Diese Wahl, kombiniert mit einem robusten Low-Level-Regler, ermöglicht einen zuverlässigen Sim-to-Real-Transfer trotz erheblicher Unsicherheiten, die durch die Kabellast während dynamischer 3D-Bewegungen verursacht werden. Wir validieren unsere Methode in verschiedenen realen Experimenten, einschließlich der Vollpose-Kontrolle unter Unsicherheiten des Lastmodells, und zeigen eine Setpoint-Tracking-Leistung, die mit der modernsten zentralisierten Methode vergleichbar ist. Wir demonstrieren auch die Zusammenarbeit zwischen Agenten mit heterogenen Regelungspolitiken und die Robustheit gegenüber dem vollständigen Ausfall eines MAVs während des Fluges. Videos der Experimente: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
Die präzise Resektion von Läsionen hängt von der genauen Identifizierung feingranularer anatomischer Strukturen ab. Während viele Methoden zur grobgranularen Segmentierung (CGS) bei der großflächigen Segmentierung (z. B. von Organen) erfolgreich waren, sind sie in klinischen Szenarien, die eine feingranulare Segmentierung (FGS) erfordern, unzureichend. Dies bleibt aufgrund häufiger individueller Variationen in kleinskaligen anatomischen Strukturen eine Herausforderung. Obwohl neuere Mamba-basierte Modelle die Segmentierung medizinischer Bilder vorangetrieben haben, verlassen sie sich oft auf festgelegte, manuell definierte Scan-Reihenfolgen, was ihre Anpassungsfähigkeit an individuelle Variationen in der FGS einschränkt. Um dies zu beheben, schlagen wir ASM-UNet vor, eine neuartige Mamba-basierte Architektur für FGS. Sie führt adaptive Scan-Bewertungen ein, um die Scan-Reihenfolge dynamisch zu steuern, die durch die Kombination von gruppenbezogenen Gemeinsamkeiten und individuellen Variationen generiert werden. Experimente auf zwei öffentlichen Datensätzen (ACDC und Synapse) und einem neu vorgeschlagenen anspruchsvollen Datensatz zur feingranularen Segmentierung des Gallengangsystems, nämlich BTMS, zeigen, dass ASM-UNet sowohl bei CGS- als auch bei FGS-Aufgaben überlegene Leistungen erzielt. Unser Code und der Datensatz sind unter https://github.com/YqunYang/ASM-UNet verfügbar.
Mitgliedschaftsinferenzangriffe dienen als nützliches Werkzeug für den fairen Einsatz von Sprachmodellen, beispielsweise zur Erkennung potenzieller Urheberrechtsverletzungen und zur Überprüfung von Datenlecks. Viele derzeitige state-of-the-art Angriffe erfordern jedoch Zugriff auf die verborgenen Zustände oder Wahrscheinlichkeitsverteilungen der Modelle, was Untersuchungen an weit verbreiteten, nur über APIs zugänglichen Modellen wie GPT-4 verhindert. In dieser Arbeit stellen wir den N-Gram Coverage Attack vor, einen Mitgliedschaftsinferenzangriff, der sich ausschließlich auf Textausgaben des Zielmodells stützt und somit Angriffe auf vollständig Black-Box-Modelle ermöglicht. Wir nutzen die Beobachtung, dass Modelle eher Textmuster speichern und anschließend generieren, die häufig in ihren Trainingsdaten vorkamen. Konkret macht der N-Gram Coverage Attack eine Vorhersage für einen Kandidaten, indem er zunächst mehrere Modellgenerationen basierend auf einem Präfix des Kandidaten erhält. Anschließend verwendet er n-gram Überlappungsmetriken, um die Ähnlichkeiten dieser Ausgaben mit dem tatsächlichen Suffix zu berechnen und zu aggregieren; hohe Ähnlichkeiten deuten auf eine wahrscheinliche Mitgliedschaft hin. Wir zeigen zunächst anhand einer Vielzahl bestehender Benchmarks, dass der N-Gram Coverage Attack andere Black-Box-Methoden übertrifft und dabei bemerkenswerterweise vergleichbare oder sogar bessere Leistungen im Vergleich zu state-of-the-art White-Box-Angriffen erzielt – obwohl er nur auf Textausgaben zugreift. Interessanterweise stellen wir fest, dass die Erfolgsrate unserer Methode mit dem Rechenbudget des Angriffs skaliert – je mehr Sequenzen wir basierend auf dem Präfix vom Zielmodell generieren, desto besser tendiert die Angriffsleistung zu werden. Nachdem wir die Genauigkeit unserer Methode überprüft haben, verwenden wir sie, um bisher unerforschte geschlossene OpenAI-Modelle in mehreren Domänen zu untersuchen. Wir stellen fest, dass neuere Modelle wie GPT-4o eine erhöhte Robustheit gegenüber Mitgliedschaftsinferenz aufweisen, was auf einen sich entwickelnden Trend hin zu verbessertem Datenschutz hindeutet.
Große Sprachmodelle (LLMs) werden typischerweise für Aufgaben des logischen Denkens durch eine zweistufige Pipeline feinabgestimmt, die aus Supervised Fine-Tuning (SFT) gefolgt von Reinforcement Learning (RL) besteht. Dieser Prozess ist jedoch mit katastrophalem Vergessen und suboptimalen Kompromissen zwischen Imitation und Exploration behaftet. Neuere einstufige Methoden versuchen, SFT und RL mithilfe von Heuristiken zu vereinheitlichen, aber es fehlt ihnen ein prinzipieller Mechanismus, um die beiden Paradigmen dynamisch auszubalancieren. In diesem Papier betrachten wir diese Herausforderung durch die theoretische Linse impliziter Belohnungen und sehen SFT und RL nicht als getrennte Methoden, sondern als komplementäre Belohnungssignale. Wir stellen Adaptive Meta Fine-Tuning (AMFT) vor, einen neuartigen einstufigen Algorithmus, der das optimale Gleichgewicht zwischen der impliziten, pfadbasierten Belohnung von SFT und der expliziten, ergebnisbasierten Belohnung von RL lernt. Das Kernstück von AMFT ist ein Meta-Gradienten-adaptiver Gewichtsregler, der das SFT-RL-Gleichgewicht als lernbaren Parameter behandelt und ihn dynamisch optimiert, um die langfristige Aufgabenleistung zu maximieren. Dieser vorausschauende Ansatz, der durch die Entropie der Politik für Stabilität regularisiert wird, entdeckt autonom einen effektiven Trainingsplan. Wir führen eine umfassende Bewertung auf anspruchsvollen Benchmarks durch, die mathematisches Denken, abstraktes visuelles Denken (General Points) und visuell-sprachliche Navigation (V-IRL) umfassen. AMFT etabliert durchweg einen neuen Stand der Technik und zeigt eine überlegene Generalisierung bei Out-of-Distribution (OOD)-Aufgaben. Ablationsstudien und Analysen der Trainingsdynamik bestätigen, dass der Meta-Lernregler entscheidend für die Stabilität, Proben effizienz und Leistung von AMFT ist und ein prinzipielleres und effektiveres Paradigma für die Ausrichtung von LLMs bietet. Unsere Codes sind unter https://github.com/hlxtsyj/AMFT quelloffen verfügbar.
Die rasche Verbreitung von Large Language Models (LLMs) hat maßgeblich zur Entwicklung gerechter KI-Systeme beigetragen, die in der Lage sind, faktische Fragen zu beantworten (Question-Answering, QA). Allerdings gibt es keine bekannte Studie, die die Robustheit von LLMs testet, wenn sie mit verschleierten Versionen von Fragen konfrontiert werden. Um diese Einschränkungen systematisch zu bewerten, schlagen wir eine neuartige Technik namens ObfusQAte vor und führen, basierend darauf, ObfusQA ein – ein umfassendes, erstmaliges Framework mit mehrstufigen Verschleierungsebenen, das darauf abzielt, die Fähigkeiten von LLMs in drei verschiedenen Dimensionen zu untersuchen: (i) Named-Entity-Indirektion, (ii) Ablenkungsindirektion und (iii) Kontextuelle Überlastung. Durch die Erfassung dieser fein abgestuften sprachlichen Unterschiede bietet ObfusQA einen umfassenden Benchmark zur Bewertung der Robustheit und Anpassungsfähigkeit von LLMs. Unsere Studie zeigt, dass LLMs dazu neigen, zu versagen oder halluzinierte Antworten zu generieren, wenn sie mit diesen zunehmend nuancierten Variationen konfrontiert werden. Um die Forschung in dieser Richtung zu fördern, stellen wir ObfusQAte öffentlich zur Verfügung.