papers.title

papers.description

ReCapture: Generative Videokamera-Steuerungen für benutzerbereitgestellte Videos mittels Maskierter Video-Feinabstimmung
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Kürzlich haben Durchbrüche in der Videomodellierung die Erzeugung kontrollierbarer Kameratrajektorien in generierten Videos ermöglicht. Diese Methoden können jedoch nicht direkt auf benutzerbereitgestellte Videos angewendet werden, die nicht von einem Videomodell erzeugt wurden. In diesem Artikel präsentieren wir ReCapture, eine Methode zur Erzeugung neuer Videos mit neuartigen Kameratrajektorien aus einem einzigen benutzerbereitgestellten Video. Unsere Methode ermöglicht es, das Referenzvideo mit all seinen bestehenden Szenenbewegungen aus völlig unterschiedlichen Blickwinkeln und mit kinematografischer Kamerabewegung neu zu generieren. Bemerkenswerterweise können wir mit unserer Methode auch Teile der Szene plausibel rekonstruieren, die im Referenzvideo nicht sichtbar waren. Unsere Methode funktioniert, indem (1) ein verrauschtes Ankervideo mit einer neuen Kameratrajektorie mithilfe von Multiview-Diffusionsmodellen oder tiefenbasiertem Point-Cloud-Rendering erzeugt wird und dann (2) das Ankervideo mithilfe unserer vorgeschlagenen Masked-Video-Fine-Tuning-Technik in ein sauberes und zeitlich konsistentes Video mit neuem Blickwinkel regeneriert wird.

Große Sprachmodelle, die strukturiertes Denken orchestrieren, erreichen das Niveau eines Kaggle Grandmasters.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Wir stellen Agent K v1.0 vor, einen autonomes Data-Science-Agenten, der entwickelt wurde, um diverse Data-Science-Aufgaben zu automatisieren, zu optimieren und zu verallgemeinern. Vollautomatisch verwaltet Agent K v1.0 den gesamten Data-Science-Lebenszyklus, indem er aus Erfahrungen lernt. Er nutzt ein hochflexibles strukturiertes Schlussfolgerungsframework, um es ihm zu ermöglichen, Speicher in einer verschachtelten Struktur dynamisch zu verarbeiten, indem er effektiv aus gespeicherter Erfahrung lernt, um komplexe Schlussfolgerungsaufgaben zu bewältigen. Er optimiert Lang- und Kurzzeitgedächtnis, indem er selektiv Schlüsselinformationen speichert und abruft, um zukünftige Entscheidungen basierend auf Umgebungsbelohnungen zu lenken. Dieser iterative Ansatz ermöglicht es ihm, Entscheidungen ohne Feinabstimmung oder Backpropagation zu verfeinern und kontinuierliche Verbesserungen durch erfahrungsbezogenes Lernen zu erzielen. Wir evaluieren die Fähigkeiten unseres Agenten anhand von Kaggle-Wettbewerben als Fallstudie. Nach einem vollautomatischen Protokoll adressiert Agent K v1.0 systematisch komplexe und multimodale Data-Science-Aufgaben, indem er Bayes'sche Optimierung für die Hyperparameter-Abstimmung und Feature-Engineering einsetzt. Unser neues Evaluierungsframework bewertet rigoros die End-to-End-Fähigkeiten von Agent K v1.0, um Einreichungen ausgehend von einer Kaggle-Wettbewerbs-URL zu generieren und zu senden. Die Ergebnisse zeigen, dass Agent K v1.0 eine Erfolgsrate von 92,5\% über Aufgaben hinweg erreicht, die tabellarische, Computer-Vision-, NLP- und multimodale Bereiche umfassen. Beim Benchmarking gegen 5.856 menschliche Kaggle-Wettbewerber durch Berechnung von Elo-MMR-Werten für jeden, platziert sich Agent K v1.0 unter den Top 38\%, was ein insgesamt mit Experten vergleichbares Fähigkeitsniveau zeigt. Bemerkenswert ist, dass sein Elo-MMR-Wert zwischen dem ersten und dritten Quartil der von menschlichen Großmeistern erreichten Werte liegt. Darüber hinaus zeigen unsere Ergebnisse, dass Agent K v1.0 ein Leistungsniveau erreicht hat, das einem Kaggle-Großmeister entspricht, mit einem Rekord von 6 Gold-, 3 Silber- und 7 Bronzemedaillen, wie von Kaggle's Fortschrittssystem definiert.

Text und Bilder wurden geleakt! Eine systematische Analyse von multimodaler LLM-Datenkontamination.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Die rasante Entwicklung von multimodalen großen Sprachmodellen (MLLMs) hat eine überlegene Leistung bei verschiedenen multimodalen Benchmarks gezeigt. Allerdings führt das Problem der Datenkontamination während des Trainings zu Herausforderungen bei der Leistungsbewertung und -vergleich. Obwohl zahlreiche Methoden zur Erkennung von Datensatzkontamination in großen Sprachmodellen (LLMs) existieren, sind sie für MLLMs aufgrund ihrer verschiedenen Modalitäten und mehreren Trainingsphasen weniger effektiv. In dieser Studie stellen wir ein multimodales Rahmenwerk zur Erkennung von Datenkontamination, MM-Detect, vor, das speziell für MLLMs entwickelt wurde. Unsere experimentellen Ergebnisse zeigen, dass MM-Detect empfindlich auf unterschiedliche Grade von Kontamination reagiert und signifikante Leistungsverbesserungen aufgrund von Datenlecks des Trainingssets multimodaler Benchmarks aufzeigen kann. Darüber hinaus untersuchen wir auch die Möglichkeit der Kontamination, die aus der Vorphase des Trainings von LLMs, die von MLLMs verwendet werden, und der Feinabstimmungsphase von MLLMs stammt, und bieten neue Einblicke in die Phasen, in denen Kontamination eingeführt werden kann.

Polynomiale Kompositionsaktivierungen: Die Dynamik großer Sprachmodelle entfesseln
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Transformer haben aufgrund ihrer leistungsstarken Anpassungsfähigkeiten in verschiedenen Bereichen umfangreiche Anwendungen gefunden. Dieser Erfolg kann teilweise auf ihre inhärente Nichtlinearität zurückgeführt werden. Daher haben Forscher neben der in der Original-Transformer-Architektur verwendeten ReLU-Funktion alternative Module wie GeLU und SwishGLU erforscht, um die Nichtlinearität zu verbessern und damit die Repräsentationskapazität zu erhöhen. In diesem Papier schlagen wir eine neue Kategorie von polynomialen Kompositionsaktivierungen (PolyCom) vor, die entwickelt wurden, um die Dynamik von Transformern zu optimieren. Theoretisch bieten wir eine umfassende mathematische Analyse von PolyCom an, die ihre verbesserte Ausdrucksstärke und Wirksamkeit im Vergleich zu anderen Aktivierungsfunktionen hervorhebt. Bemerkenswert ist, dass wir zeigen, dass Netzwerke, die PolyCom einbeziehen, die optimale Approximationsrate erreichen, was darauf hindeutet, dass PolyCom-Netzwerke minimale Parameter benötigen, um allgemeine glatte Funktionen in Sobolev-Räumen zu approximieren. Wir führen empirische Experimente an den Vorkonfigurationen großer Sprachmodelle (LLMs) durch, einschließlich dichter und dünn besetzter Architekturen. Durch den Austausch herkömmlicher Aktivierungsfunktionen durch PolyCom ermöglichen wir es LLMs, Wechselwirkungen höherer Ordnung innerhalb der Daten zu erfassen, was sich in Bezug auf Genauigkeit und Konvergenzraten positiv auf die Leistungsmetriken auswirkt. Umfangreiche experimentelle Ergebnisse zeigen die Wirksamkeit unserer Methode und zeigen signifikante Verbesserungen gegenüber anderen Aktivierungsfunktionen. Der Code ist verfügbar unter https://github.com/BryceZhuo/PolyCom.

TIP-I2V: Eine Millionenskala-Dataset mit realen Text- und Bildprompts für die Bild-zu-Video-Generierung
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Videogenerierungsmodelle revolutionieren die Inhaltserstellung, wobei Bild-zu-Video-Modelle aufgrund ihrer verbesserten Steuerbarkeit, visuellen Konsistenz und praktischen Anwendungen zunehmend Aufmerksamkeit erregen. Trotz ihrer Popularität basieren diese Modelle jedoch auf benutzerbereitgestellten Text- und Bildprompts, und es gibt derzeit keinen speziellen Datensatz zur Untersuchung dieser Prompts. In diesem Artikel stellen wir TIP-I2V vor, den ersten groß angelegten Datensatz mit über 1,70 Millionen einzigartigen, benutzerbereitgestellten Text- und Bildprompts speziell für die Bild-zu-Video-Generierung. Zusätzlich liefern wir die entsprechenden generierten Videos von fünf state-of-the-art Bild-zu-Video-Modellen. Wir beginnen mit der Darstellung des zeitaufwändigen und kostspieligen Prozesses der Zusammenstellung dieses groß angelegten Datensatzes. Anschließend vergleichen wir TIP-I2V mit zwei beliebten Prompt-Datensätzen, VidProM (Text-zu-Video) und DiffusionDB (Text-zu-Bild), und heben Unterschiede in grundlegenden und semantischen Informationen hervor. Dieser Datensatz ermöglicht Fortschritte in der Bild-zu-Video-Forschung. Beispielsweise können Forscher die Prompts in TIP-I2V nutzen, um Benutzerpräferenzen zu analysieren und die multidimensionale Leistung ihrer trainierten Modelle zu bewerten, um bessere Modelle zu entwickeln; und um die Modellsicherheit zu verbessern, können sie sich darauf konzentrieren, das Problem der Fehlinformationen, das durch Bild-zu-Video-Modelle verursacht wird, anzugehen. Die durch TIP-I2V inspirierten neuen Forschungsansätze und die Unterschiede zu bestehenden Datensätzen unterstreichen die Bedeutung eines spezialisierten Bild-zu-Video-Prompt-Datensatzes. Das Projekt ist öffentlich verfügbar unter https://tip-i2v.github.io.

Selbstkonsistenzpräferenzoptimierung
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Die Selbstausrichtung, bei der Modelle lernen, sich ohne menschliche Annotation zu verbessern, ist ein stark wachsender Forschungsbereich. Allerdings scheitern bestehende Techniken oft daran, komplexe Schlussfolgerungsaufgaben zu verbessern, aufgrund der Schwierigkeit, korrekte Belohnungen zuzuweisen. Ein orthogonaler Ansatz, der bekannt ist, um die Korrektheit zu verbessern, ist die Selbstkonsistenz, eine Methode, die zur Inferenzzeit basierend auf mehrfachem Sampling angewendet wird, um die konsistenteste Antwort zu finden. In dieser Arbeit erweitern wir das Konzept der Selbstkonsistenz, um Modelle zu trainieren. Wir führen daher die Selbstkonsistenz-Präferenzoptimierung (ScPO) ein, die iterativ darauf abzielt, konsistente Antworten auf unüberwachte neue Probleme gegenüber inkonsistenten Antworten zu bevorzugen. Wir zeigen, dass ScPO zu erheblichen Verbesserungen gegenüber der herkömmlichen Belohnungsmodell-Trainingsmethode bei Schlussfolgerungsaufgaben wie GSM8K und MATH führt, wodurch der Abstand zur überwachten Schulung mit Goldantworten oder Präferenzen verringert wird, und dass die Kombination von ScPO mit dem standardmäßigen überwachten Lernen die Ergebnisse noch weiter verbessert. Bei ZebraLogic feinabgestimmt ScPO Llama-3 8B überlegen gegenüber Llama-3 70B, Gemma-2 27B und Claude-3 Haiku.

Von Medprompt zu o1: Erkundung von Laufzeitstrategien für medizinische Herausforderungsprobleme und darüber hinaus
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Laufzeitlenkungsstrategien wie Medprompt sind wertvoll, um große Sprachmodelle (LLMs) bei anspruchsvollen Aufgaben zu führen. Medprompt zeigt, dass ein allgemeines LLM durch die Verwendung eines Prompts für eine Laufzeitstrategie mit Denkprozess-Verkettung und Ensembling auf spezialisierte Bereiche wie die Medizin fokussiert werden kann, um Spitzenleistungen zu erzielen. Das o1-preview-Modell von OpenAI repräsentiert ein neues Paradigma, bei dem ein Modell so konzipiert ist, dass es vor der Generierung endgültiger Antworten eine Laufzeitbegründung durchführt. Wir möchten das Verhalten von o1-preview anhand einer vielfältigen Auswahl medizinischer Herausforderungsprobleme verstehen. In Anlehnung an die Medprompt-Studie mit GPT-4 evaluieren wir systematisch das o1-preview-Modell anhand verschiedener medizinischer Benchmarks. Bemerkenswerterweise übertrifft o1-preview selbst ohne Prompting-Techniken größtenteils die GPT-4-Serie mit Medprompt. Wir untersuchen systematisch die Wirksamkeit klassischer Prompt-Engineering-Strategien, wie sie von Medprompt repräsentiert werden, im neuen Paradigma von Begründungsmodellen. Wir stellten fest, dass Few-Shot-Prompting die Leistung von o1 beeinträchtigt, was darauf hindeutet, dass das Lernen im Kontext möglicherweise kein effektiver Lenkungsansatz mehr für Begründungsmodelle ist. Obwohl Ensembling machbar bleibt, ist es ressourcenintensiv und erfordert eine sorgfältige Kosten-Leistungs-Optimierung. Unsere Kosten- und Genauigkeitsanalyse verschiedener Laufzeitstrategien zeigt eine Pareto-Front, wobei GPT-4o eine erschwinglichere Option darstellt und o1-preview Spitzenleistungen zu höheren Kosten erzielt. Obwohl o1-preview Spitzenleistungen bietet, behält GPT-4o mit Lenkungsstrategien wie Medprompt in spezifischen Kontexten einen Wert. Darüber hinaus stellen wir fest, dass das o1-preview-Modell auf vielen bestehenden medizinischen Benchmarks nahezu gesättigt ist, was die Notwendigkeit neuer, anspruchsvoller Benchmarks unterstreicht. Abschließend reflektieren wir über allgemeine Richtungen für die Berechnung zur Inferenzzeit mit LLMs.

papers.title

papers.description

ReCapture: Generative Videokamera-Steuerungen für benutzerbereitgestellte Videos mittels Maskierter Video-Feinabstimmung
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Große Sprachmodelle, die strukturiertes Denken orchestrieren, erreichen das Niveau eines Kaggle Grandmasters.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

Text und Bilder wurden geleakt! Eine systematische Analyse von multimodaler LLM-Datenkontamination.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Polynomiale Kompositionsaktivierungen: Die Dynamik großer Sprachmodelle entfesseln
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V: Eine Millionenskala-Dataset mit realen Text- und Bildprompts für die Bild-zu-Video-Generierung
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Selbstkonsistenzpräferenzoptimierung
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Von Medprompt zu o1: Erkundung von Laufzeitstrategien für medizinische Herausforderungsprobleme und darüber hinaus
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz