Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Bericht stellen wir Qwen2.5 vor, eine umfassende Serie von großen Sprachmodellen (LLMs), die entwickelt wurden, um vielfältigen Anforderungen gerecht zu werden. Im Vergleich zu früheren Iterationen wurde Qwen 2.5 sowohl während des Pre-Trainings als auch des Post-Trainings signifikant verbessert. Im Pre-Training haben wir die hochwertigen Pre-Training-Datensätze von zuvor 7 Billionen Tokens auf 18 Billionen Tokens skaliert. Dies bietet eine solide Grundlage für gesunden Menschenverstand, Expertenwissen und Argumentationsfähigkeiten. Im Post-Training implementieren wir komplexe überwachte Feinabstimmung mit über 1 Million Beispielen sowie mehrstufiges verstärkendes Lernen. Post-Training-Techniken verbessern die menschliche Präferenz und verbessern insbesondere die Generierung langer Texte, die strukturelle Datenanalyse und das Befolgen von Anweisungen. Um vielfältige und unterschiedliche Anwendungsfälle effektiv zu bewältigen, präsentieren wir die Qwen2.5 LLM-Serie in verschiedenen Größen. Die Open-Weight-Angebote umfassen Basismodelle und instruktionsangepasste Modelle, wobei quantisierte Versionen verfügbar sind. Darüber hinaus umfassen die proprietären Modelle für gehostete Lösungen derzeit zwei Varianten von Mixture-of-Experts (MoE): Qwen2.5-Turbo und Qwen2.5-Plus, die beide über das Alibaba Cloud Model Studio verfügbar sind. Qwen2.5 hat Spitzenleistungen in einer Vielzahl von Benchmarks gezeigt, die die Sprachverarbeitung, Argumentation, Mathematik, Codierung, die Anpassung an menschliche Präferenzen usw. bewerten. Insbesondere übertrifft das Open-Weight-Flaggschiff Qwen2.5-72B-Instruct eine Reihe von offenen und proprietären Modellen und zeigt eine wettbewerbsfähige Leistung im Vergleich zum State-of-the-Art-Open-Weight-Modell Llama-3-405B-Instruct, das etwa 5-mal größer ist. Qwen2.5-Turbo und Qwen2.5-Plus bieten eine überlegene Kostenwirksamkeit und konkurrieren erfolgreich mit GPT-4o-mini bzw. GPT-4o. Darüber hinaus haben die Qwen2.5-Modelle als Grundlage maßgeblich zur Schulung spezialisierter Modelle wie Qwen2.5-Math, Qwen2.5-Coder, QwQ und multimodale Modelle beigetragen.
Multischrittige multimodale Denkaufgaben stellen eine bedeutende Herausforderung für multimodale große Sprachmodelle (MLLMs) dar, und die Suche nach effektiven Möglichkeiten, um ihre Leistung in solchen Szenarien zu verbessern, bleibt ein ungelöstes Problem. In diesem Artikel schlagen wir AR-MCTS vor, ein universelles Framework, das entwickelt wurde, um die Denkfähigkeiten von MLLMs durch Aktive Abrufung (AR) und Monte Carlo Baum Suche (MCTS) schrittweise zu verbessern. Unser Ansatz beginnt mit der Entwicklung eines vereinheitlichten Abrufmoduls, das Schlüsseleinsichten zur Lösung komplexer Denkprobleme aus einem hybriden Abrufkorpus abruft. Um die Lücke in der automatisierten multimodalen Denkverifizierung zu überbrücken, verwenden wir den MCTS-Algorithmus in Kombination mit einem aktiven Abrufmechanismus, der die automatische Generierung von schrittweisen Annotationen ermöglicht. Diese Strategie ruft dynamisch Schlüsseleinsichten für jeden Denkschritt ab, geht über die traditionelle Strahlsuche hinaus und verbessert die Vielfalt und Zuverlässigkeit des Denkraums. Darüber hinaus führen wir ein Prozessbelohnungsmodell ein, das sich allmählich anpasst, um die automatische Verifizierung multimodaler Denkaufgaben zu unterstützen. Experimentelle Ergebnisse über drei komplexe multimodale Denk-Benchmarks bestätigen die Wirksamkeit des AR-MCTS-Frameworks bei der Verbesserung der Leistung verschiedener multimodaler Modelle. Weitere Analysen zeigen, dass AR-MCTS die Vielfalt und Genauigkeit der Stichproben optimieren kann und zuverlässige multimodale Denkprozesse liefert.
Trotz der stark wachsenden Nachfrage nach multimodaler Suche wird der Fortschritt in diesem Bereich weiterhin stark durch einen Mangel an Trainingsdaten eingeschränkt. In diesem Artikel stellen wir MegaPairs vor, eine neuartige Methode zur Datensynthese, die Bildsprachmodelle (VLMs) und Open-Domain-Bilder nutzt, zusammen mit einem umfangreichen synthetischen Datensatz, der aus dieser Methode generiert wurde. Unsere empirische Analyse zeigt, dass MegaPairs hochwertige Daten generiert, wodurch der multimodale Sucher die Basismodelle, die auf 70-mal mehr Daten aus bestehenden Datensätzen trainiert wurden, signifikant übertreffen kann. Darüber hinaus kann MegaPairs aufgrund seiner ausschließlichen Nutzung von allgemeinen Bildkorpora und Open-Source-VLMs leicht skaliert werden, was kontinuierliche Verbesserungen der Suchleistung ermöglicht. In diesem Stadium haben wir mehr als 26 Millionen Trainingsinstanzen erzeugt und mehrere Modelle unterschiedlicher Größen mit diesen Daten trainiert. Diese neuen Modelle erzielen eine Spitzenleistung bei der Null-Shot-Leistung über 4 beliebte zusammengesetzte Bildsuch-Benchmarks und die insgesamt beste Leistung bei den 36 Datensätzen, die von MMEB bereitgestellt werden. Sie zeigen auch bemerkenswerte Leistungsverbesserungen durch zusätzliches Feintuning. Unser erstellter Datensatz, gut trainierte Modelle und die Datensynthesepipeline werden öffentlich zugänglich gemacht, um die zukünftige Entwicklung dieses Bereichs zu erleichtern.
Das Auftreten von Modellkollaps in synthetischen Daten zeigt, dass das iterative Training mit selbstgenerierten Daten zu einem allmählichen Leistungsabfall führt. Mit der Verbreitung von KI-Modellen wird synthetische Daten das Webdaten-Ökosystem grundlegend umgestalten. Zukünftige GPT-{n}-Modelle werden zwangsläufig mit einer Mischung aus synthetischen und menschlich produzierten Daten trainiert werden. In diesem Paper konzentrieren wir uns auf zwei Fragen: Welchen Einfluss haben synthetische Daten auf das Training von Sprachmodellen und wie können Daten synthetisiert werden, ohne dass es zu einem Modellkollaps kommt? Wir führen zunächst das Pre-Training von Sprachmodellen mit verschiedenen Anteilen synthetischer Daten durch, wodurch eine negative Korrelation zwischen dem Anteil synthetischer Daten und der Modellleistung aufgedeckt wird. Des Weiteren führen wir eine statistische Analyse der synthetischen Daten durch, um Phänomene wie Verteilungsverschiebung und Überkonzentration von n-Gramm-Merkmalen aufzudecken. Inspiriert von den oben genannten Erkenntnissen schlagen wir vor, Token-Bearbeitungen an menschlich produzierten Daten durchzuführen, um halbsynthetische Daten zu erhalten. Als Machbarkeitsnachweis zeigen wir theoretisch, dass Token-Ebene-Bearbeitungen einen Modellkollaps verhindern können, da der Testfehler durch eine endliche obere Grenze begrenzt ist. Wir führen umfangreiche Experimente zum Pre-Training von Grund auf, kontinuierlichem Pre-Training und überwachtem Feintuning durch. Die Ergebnisse bestätigen unseren theoretischen Beweis, dass Token-Ebene-Bearbeitungen die Datenqualität verbessern und die Modellleistung steigern.
Dieses Paper stellt LongBench v2 vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, langfristige Kontextprobleme zu bewältigen, die tiefgreifendes Verständnis und Schlussfolgerungen über verschiedene reale Multitasking-Aufgaben erfordern. LongBench v2 besteht aus 503 anspruchsvollen Multiple-Choice-Fragen mit Kontexten von 8k bis 2M Wörtern, die sechs Hauptaufgabenkategorien umfassen: Einzeldokumenten-Fragen, Mehrdokumenten-Fragen, langfristiges Lernen im Kontext, Verstehen von langen Dialogverläufen, Verständnis von Code-Repositories und langen strukturierten Daten. Um die Breite und Praktikabilität sicherzustellen, sammeln wir Daten von fast 100 hochqualifizierten Personen mit vielfältigen beruflichen Hintergründen. Wir nutzen sowohl automatisierte als auch manuelle Überprüfungsprozesse, um eine hohe Qualität und Schwierigkeit aufrechtzuerhalten, was dazu führt, dass menschliche Experten unter einem Zeitlimit von 15 Minuten nur eine Genauigkeit von 53,7% erreichen. Unsere Auswertung zeigt, dass das am besten abschneidende Modell, wenn es die Fragen direkt beantwortet, nur eine Genauigkeit von 50,1% erreicht. Im Gegensatz dazu erreicht das o1-preview-Modell, das längeres Schlussfolgern beinhaltet, eine Genauigkeit von 57,7%, und übertrifft damit die menschliche Basislinie um 4%. Diese Ergebnisse unterstreichen die Bedeutung einer verbesserten Schlussfolgerungsfähigkeit und einer Skalierung der Inferenzzeitberechnung, um den Herausforderungen des langfristigen Kontexts in LongBench v2 zu begegnen. Das Projekt ist unter https://longbench2.github.io verfügbar.
Diffusionsmodelle und ihre Verallgemeinerung, das sogenannte Flussabgleich, haben einen bemerkenswerten Einfluss auf das Gebiet der Medienentstehung gehabt. Hier besteht der konventionelle Ansatz darin, die komplexe Zuordnung von einer einfachen Quellverteilung von Gaußschem Rauschen zur Zielmedienverteilung zu erlernen. Für kreuzmodale Aufgaben wie die Text-zu-Bild-Erzeugung wird dieselbe Zuordnung von Rauschen zu Bild erlernt, wobei ein Konditionierungsmechanismus im Modell enthalten ist. Ein Schlüsselfeature von Flussabgleich, das bisher relativ unerforscht ist, besteht darin, dass sie im Gegensatz zu Diffusionsmodellen nicht darauf beschränkt sind, dass die Quellverteilung Rauschen ist. Daher schlagen wir in diesem Paper einen Paradigmenwechsel vor und stellen die Frage, ob wir stattdessen Flussabgleichmodelle trainieren können, um eine direkte Zuordnung von der Verteilung einer Modalität zur Verteilung einer anderen zu erlernen und somit auf die Notwendigkeit sowohl der Rauschverteilung als auch des Konditionierungsmechanismus zu verzichten. Wir präsentieren einen allgemeinen und einfachen Rahmen, CrossFlow, für den kreuzmodalen Flussabgleich. Wir zeigen die Bedeutung der Anwendung von Variationsencodern auf die Eingabedaten und führen eine Methode ein, um eine klassifiziererfreie Anleitung zu ermöglichen. Überraschenderweise übertrifft CrossFlow für Text-zu-Bild mit einem einfachen Transformer ohne Kreuz-Aufmerksamkeit leicht den Standard-Flussabgleich, und wir zeigen, dass es besser mit Trainingschritten und Modellgröße skaliert, während es auch interessante latente Arithmetik ermöglicht, die zu semantisch sinnvollen Bearbeitungen im Ausgaberaum führt. Um die Generalisierbarkeit unseres Ansatzes zu demonstrieren, zeigen wir auch, dass CrossFlow bei verschiedenen kreuzmodalen / intra-modalen Zuordnungsaufgaben wie Bildunterschriften, Tiefenschätzung und Bild-Superresolution auf Augenhöhe oder besser als der Stand der Technik ist. Wir hoffen, dass dieses Paper dazu beiträgt, den Fortschritt in der kreuzmodalen Medienentstehung zu beschleunigen.
Die intuitive Natur der ziehbasierten Interaktion hat zu ihrer zunehmenden Akzeptanz bei der Steuerung von Objekttrajektorien in der Bild-zu-Video-Synthese geführt. Dennoch stehen bestehende Methoden, die das Ziehen im 2D-Raum durchführen, in der Regel vor Unklarheiten beim Umgang mit Bewegungen außerhalb der Ebene. In dieser Arbeit erweitern wir die Interaktion um eine neue Dimension, nämlich die Tiefendimension, sodass Benutzer jedem Punkt auf der Trajektorie eine relative Tiefe zuweisen können. Auf diese Weise erbt unser neues Interaktionsparadigma nicht nur die Bequemlichkeit des 2D-Ziehens, sondern erleichtert auch die Trajektoriensteuerung im 3D-Raum, wodurch der Kreativitätsspielraum erweitert wird. Wir schlagen eine wegweisende Methode für die 3D-Trajektoriensteuerung in der Bild-zu-Video-Synthese vor, indem wir Objektmasken in einige Clusterpunkte abstrahieren. Diese Punkte, zusammen mit den Tiefeninformationen und den Instanzinformationen, werden schließlich als Steuersignal in ein Videodiffusionsmodell eingespeist. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes, genannt LeviTor, bei der präzisen Manipulation der Objektbewegungen bei der Erstellung fotorealistischer Videos aus statischen Bildern. Projektseite: https://ppetrichor.github.io/levitor.github.io/
Als eine gängige Bildbearbeitungsoperation beinhaltet die Bildkomposition das Integrieren von Vordergrundobjekten in Hintergrundszenen. In diesem Paper erweitern wir die Anwendung des Konzepts der Affordanz von auf den Menschen ausgerichteten Aufgaben der Bildkomposition auf ein allgemeineres Rahmenwerk für die Objekt-Szenen-Komposition, das das komplexe Zusammenspiel zwischen Vordergrundobjekten und Hintergrundszene behandelt. Unter Berücksichtigung des Prinzips der Affordanz definieren wir die Aufgabe der affordanzbewussten Objekteinfügung, die darauf abzielt, jedes Objekt nahtlos in jede Szene mit verschiedenen Positionsvorgaben einzufügen. Um das Problem des begrenzten Datensatzes anzugehen und diese Aufgabe zu integrieren, haben wir den SAM-FB-Datensatz erstellt, der über 3 Millionen Beispiele aus mehr als 3.000 Objektkategorien enthält. Darüber hinaus schlagen wir das Maskenbewusste Dual-Diffusion (MADD)-Modell vor, das eine Dual-Stream-Architektur nutzt, um gleichzeitig das RGB-Bild und die Einfügemaske zu denoisieren. Durch die explizite Modellierung der Einfügemaske im Diffusionsprozess erleichtert MADD effektiv das Konzept der Affordanz. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode die Methoden auf dem neuesten Stand der Technik übertrifft und eine starke Verallgemeinerungsleistung auf Bildern in freier Wildbahn aufweist. Bitte beachten Sie unseren Code auf https://github.com/KaKituken/affordance-aware-any.
In diesem Paper stellen wir AceMath vor, eine Reihe von Spitzen-Mathemodellen, die sich hervorragend zur Lösung komplexer mathematischer Probleme eignen, zusammen mit äußerst effektiven Belohnungsmodellen, die generierte Lösungen bewerten können und zuverlässig die korrekten identifizieren. Um die anweisungsgesteuerten Mathemodellen zu entwickeln, schlagen wir einen überwachten Feinabstimmungsprozess (SFT) vor, der zunächst eine wettbewerbsfähige Leistung in allgemeinen Bereichen erzielt, gefolgt von gezielter Feinabstimmung für den Mathematikbereich unter Verwendung eines sorgfältig kuratierten Satzes von Anweisungen und synthetisch generierten Antworten. Das resultierende Modell, AceMath-72B-Instruct, übertrifft deutlich Qwen2.5-Math-72B-Instruct, GPT-4o und Claude-3.5 Sonnet. Um ein auf Mathematik spezialisiertes Belohnungsmodell zu entwickeln, konstruieren wir zunächst AceMath-RewardBench, einen umfassenden und robusten Benchmark zur Bewertung von Mathematik-Belohnungsmodellen über verschiedene Probleme und Schwierigkeitsgrade hinweg. Danach präsentieren wir einen systematischen Ansatz zum Aufbau unserer Mathematik-Belohnungsmodelle. Das resultierende Modell, AceMath-72B-RM, übertrifft konsistent modernste Belohnungsmodelle. Darüber hinaus erreichen wir durch die Kombination von AceMath-72B-Instruct mit AceMath-72B-RM den höchsten durchschnittlichen rm@8-Score über die Mathematik-Reasoning-Benchmarks. Wir werden Modellgewichte, Trainingsdaten und Bewertungsbenchmarks unter folgendem Link veröffentlichen: https://research.nvidia.com/labs/adlr/acemath
Die prozedurale Inhaltegenerierung (PCG) ist leistungsstark bei der Erstellung hochwertiger 3D-Inhalte, aber ihre Steuerung zur Erzeugung gewünschter Formen ist schwierig und erfordert oft umfangreiche Parameterabstimmung. Die inverse prozedurale Inhaltegenerierung zielt darauf ab, automatisch die besten Parameter unter der Eingangsbedingung zu finden. Allerdings leiden bestehende samplingbasierte und neuronale Netzwerkbasierte Methoden immer noch unter zahlreichen Sample-Iterationen oder begrenzter Steuerbarkeit. In dieser Arbeit präsentieren wir DI-PCG, eine neuartige und effiziente Methode für die inverse PCG aus allgemeinen Bildbedingungen. Im Kern steht ein leichtgewichtiges Diffusions-Transformer-Modell, bei dem PCG-Parameter direkt als das Rauschunterdrückungsziel behandelt werden und die beobachteten Bilder als Bedingungen zur Steuerung der Parametergenerierung dienen. DI-PCG ist effizient und effektiv. Mit nur 7,6 Millionen Netzwerkparametern und 30 GPU-Stunden zum Training zeigt es eine überlegene Leistung bei der präzisen Wiederherstellung von Parametern und eine gute Verallgemeinerung auf Bilder in freier Wildbahn. Quantitative und qualitative Experimentergebnisse bestätigen die Wirksamkeit von DI-PCG bei inverser PCG und Bild-zu-3D-Generierungsaufgaben. DI-PCG bietet einen vielversprechenden Ansatz für eine effiziente inverse PCG und stellt einen wertvollen Erkundungsschritt auf dem Weg zur 3D-Generierung dar, der modelliert, wie man ein 3D-Asset mithilfe parametrischer Modelle erstellt.
Das Training von großen Multimodalitätsmodellen (LMMs) basiert auf beschreibenden Bildunterschriften, die Bild und Sprache verbinden. Bestehende Methoden extrahieren die Bildunterschrift entweder aus den LMM-Modellen oder erstellen sie aus Bildern aus dem Internet oder durch menschliche Eingaben. Wir schlagen vor, standardmäßige visuelle Spezialisten zu nutzen, die ursprünglich aus annotierten Bildern trainiert wurden, jedoch nicht für die Bildunterschrift, um die Bildunterschrift zu verbessern. Unser Ansatz, namens DCE, erforscht objektnahe und feinkörnige Attribute (z. B. Tiefe, Emotion und feinkörnige Kategorien) sowie Objektbeziehungen (z. B. relative Position und Mensch-Objekt-Interaktion (HOI)) und kombiniert die Attribute in der beschreibenden Bildunterschrift. Experimente zeigen, dass solche visuellen Spezialisten die Leistung bei visuellen Verständnisaufgaben sowie bei Schlussfolgerungen verbessern können, die von einem genaueren visuellen Verständnis profitieren. Wir werden den Quellcode und die Pipeline veröffentlichen, damit andere visuelle Spezialisten leicht in die Pipeline integriert werden können. Der vollständige Quellcode der DCE-Pipeline und der Datensätze werden unter https://github.com/syp2ysy/DCE verfügbar sein.
Wir schlagen ein unüberwachtes Modell für die anweisungsbasierte Bildbearbeitung vor, das auf die Notwendigkeit von Ground-Truth bearbeiteten Bildern während des Trainings verzichtet. Bestehende überwachte Methoden sind auf Datensätze angewiesen, die Triplets aus Eingabebild, bearbeitetem Bild und Bearbeitungsanweisung enthalten. Diese werden entweder von bestehenden Bearbeitungsmethoden oder menschlichen Annotationen generiert, was zu Verzerrungen führt und ihre Verallgemeinerungsfähigkeit einschränkt. Unser Ansatz begegnet diesen Herausforderungen, indem er einen neuartigen Bearbeitungsmechanismus namens Zyklische Bearbeitungskonsistenz (CEC) einführt, der Vorwärts- und Rückwärtsbearbeitungen in einem Trainingsschritt anwendet und Konsistenz in Bild- und Aufmerksamkeitsräumen durchsetzt. Dies ermöglicht es uns, auf Ground-Truth bearbeitete Bilder zu verzichten und das Training erstmals auf Datensätzen durchzuführen, die entweder aus echten Bildunterschriften oder Bildunterschrift-Bearbeitungs-Triplets bestehen. Wir zeigen empirisch, dass unsere unüberwachte Technik über einen breiteren Bereich von Bearbeitungen hinweg mit hoher Treue und Präzision besser abschneidet. Durch die Beseitigung der Notwendigkeit von vorhandenen Datensätzen von Triplets, die Reduzierung von Verzerrungen, die mit überwachten Methoden verbunden sind, und die Einführung von CEC repräsentiert unsere Arbeit einen bedeutenden Fortschritt bei der Skalierung der anweisungsbasierten Bildbearbeitung.
Wir schlagen AV-Link vor, ein einheitliches Rahmenwerk für die Generierung von Video-zu-Audio und Audio-zu-Video, das die Aktivierungen von eingefrorenen Video- und Audio-Diffusionsmodellen für zeitlich abgestimmte Cross-Modal-Konditionierung nutzt. Der Schlüssel unseres Rahmenwerks ist ein Fusion Block, der einen bidirektionalen Informationsaustausch zwischen unseren Backbone-Video- und Audio-Diffusionsmodellen durch eine zeitlich abgestimmte Self-Attention-Operation ermöglicht. Im Gegensatz zu früheren Arbeiten, die Feature-Extraktoren, die für andere Aufgaben vortrainiert sind, für das Konditionierungssignal verwenden, kann AV-Link direkt Features nutzen, die durch die komplementäre Modalität in einem einzigen Rahmenwerk erhalten wurden, d.h. Video-Features zur Generierung von Audio oder Audio-Features zur Generierung von Video. Wir evaluieren ausführlich unsere Designentscheidungen und zeigen die Fähigkeit unserer Methode, synchronisierte und qualitativ hochwertige audiovisuelle Inhalte zu erzeugen, wodurch ihr Potenzial für Anwendungen in der Erzeugung immersiver Medien verdeutlicht wird. Projektseite: snap-research.github.io/AVLink/
In diesem Paper schlagen wir das Textbasierte Offene Molekülerzeugungs-Benchmark (TOMG-Bench) vor, das erste Benchmark zur Bewertung der offenen Molekülerzeugungsfähigkeit von LLMs. TOMG-Bench umfasst einen Datensatz von drei Hauptaufgaben: Molekülbearbeitung (MolEdit), Moleküloptimierung (MolOpt) und individuelle Molekülerzeugung (MolCustom). Jede Aufgabe enthält weiterhin drei Unteraufgaben, wobei jede Unteraufgabe 5.000 Testproben umfasst. Angesichts der inhärenten Komplexität der offenen Molekülerzeugung haben wir auch ein automatisiertes Bewertungssystem entwickelt, das hilft, sowohl die Qualität als auch die Genauigkeit der erzeugten Moleküle zu messen. Unser umfassendes Benchmarking von 25 LLMs zeigt die aktuellen Einschränkungen und potenziellen Verbesserungsbereiche bei der textgesteuerten Molekülerkennung auf. Darüber hinaus konnte mit Hilfe von OpenMolIns, einem spezialisierten Instruktionsabstimmungsdatensatz, der zur Bewältigung der Herausforderungen von TOMG-Bench vorgeschlagen wurde, Llama3.1-8B alle Open-Source-Allgemein-LLMs übertreffen, sogar GPT-3.5-turbo um 46,5\% auf TOMG-Bench. Unsere Codes und Datensätze sind über https://github.com/phenixace/TOMG-Bench verfügbar.
Aktuelle Forschung untersucht das Potenzial von Diffusionsmodellen (DMs) für konsistentes Objekt-Editing, das darauf abzielt, die Position, Größe und Zusammensetzung von Objekten zu ändern, während die Konsistenz von Objekten und Hintergrund erhalten bleibt, ohne deren Textur und Attribute zu verändern. Aktuelle Inferenzzeit-Methoden stützen sich oft auf DDIM-Inversion, was die Effizienz und die erreichbare Konsistenz von bearbeiteten Bildern grundsätzlich beeinträchtigt. Neuere Methoden nutzen auch Energieführung, die das vorhergesagte Rauschen iterativ aktualisiert und die Latenten vom Originalbild entfernen kann, was zu Verzerrungen führt. In diesem Paper schlagen wir PixelMan vor, eine Inversions- und Trainingsfreie Methode zur Erreichung konsistenten Objekt-Editings über Pixelmanipulation und -generierung, bei der wir eine Duplikatkopie des Quellobjekts direkt am Zielort im Pixelraum erstellen und einen effizienten Sampling-Ansatz einführen, um das manipulierte Objekt iterativ in den Zielort zu harmonisieren und seinen ursprünglichen Ort auszufüllen, während die Bildkonsistenz gewährleistet wird, indem das bearbeitete Bild sowohl an das pixelmanipulierte Bild als auch durch die Einführung verschiedener konsistenzbewahrender Optimierungstechniken während der Inferenz verankert wird. Experimentelle Bewertungen basierend auf Benchmark-Datensätzen sowie umfangreiche visuelle Vergleiche zeigen, dass PixelMan bereits nach 16 Inferenzschritten eine Reihe von State-of-the-Art-Trainingsbasierten und -freien Methoden übertrifft (die normalerweise 50 Schritte erfordern) bei mehreren konsistenten Objekt-Editing-Aufgaben.
Dieses Papier stellt DateLogicQA vor, einen Benchmark mit 190 Fragen, die verschiedene Datumsformate, zeitliche Kontexte und Arten des Schlussfolgerns abdecken. Wir schlagen die semantische Integritätsmetrik vor, um die Tokenisierungsqualität zu bewerten und analysieren zwei Arten von Verzerrungen: die Repräsentationsebene-Verzerrung, die Einbettungen betrifft, und die Logik-Ebene-Verzerrung, die die Schlussfolgerungsergebnisse beeinflusst. Unsere Ergebnisse bieten eine umfassende Bewertung der Fähigkeiten und Grenzen von LLMs im zeitlichen Schlussfolgern und heben wichtige Herausforderungen bei der präzisen Handhabung von zeitbezogenen Daten hervor. Das GitHub-Repository für unsere Arbeit ist verfügbar unter https://github.com/gagan3012/EAIS-Temporal-Bias
Die Generierung realistischer menschlicher Videos bleibt eine herausfordernde Aufgabe, wobei die effektivsten Methoden derzeit auf einer menschlichen Bewegungssequenz als Steuersignal beruhen. Bestehende Ansätze verwenden häufig vorhandene Bewegungen, die aus anderen Videos extrahiert wurden, was die Anwendungen auf spezifische Bewegungstypen und globale Szenenanpassungen beschränkt. Wir schlagen Move-in-2D vor, einen neuartigen Ansatz zur Generierung von menschlichen Bewegungssequenzen, die von einem Szenenbild abhängig sind und eine vielfältige Bewegung ermöglichen, die sich an verschiedene Szenen anpasst. Unser Ansatz nutzt ein Diffusionsmodell, das sowohl ein Szenenbild als auch einen Textprompt als Eingaben akzeptiert und eine auf die Szene zugeschnittene Bewegungssequenz erzeugt. Um dieses Modell zu trainieren, sammeln wir einen umfangreichen Videodatensatz mit Einzelaktivitäten von Menschen und annotieren jedes Video mit der entsprechenden menschlichen Bewegung als Zielausgabe. Experimente zeigen, dass unsere Methode effektiv menschliche Bewegungen vorhersagt, die mit dem Szenenbild nach der Projektion übereinstimmen. Darüber hinaus zeigen wir, dass die generierte Bewegungssequenz die Qualität der menschlichen Bewegung bei der Videosyntheseaufgaben verbessert.