FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

Xijie Huang^1*, Chengming Xu^2*, Donghao Luo², Xiaobin Hu², Peng Tang², Xu Peng², Jiangning Zhang², Chengjie Wang², Yanwei Fu^1,3†

¹ Fudan University ² Tencent Youtu Lab ³ Shanghai Innovation Institute

^* Equal Contribution

^† Corresponding Author

Paper Code (Under Review) Dataset (Coming Soon)

Abstract

We introduce FFP-300K, a large-scale dataset of 300K high-fidelity video pairs at 720p resolution and 81 frames, constructed via a scalable two-track pipeline that supports both FFP-based and instruction-based video editing. Building on this dataset, we propose a guidance-free FFP framework with Adaptive Spatio-Temporal RoPE (AST-RoPE) and an identity propagation self-distillation objective, which balances first-frame appearance preservation and source video motion consistency. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.

FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

Abstract

FFP-300K Data Construction Demo

Comparison in EditVerseBench

Landscape-oriented Video Editing

Portrait-oriented Video Editing