张吕敏开源视频生成模型 FramePack,性能如何?

AI Review2个月前发布 ai
87 0
作者:Yuchao Gu
链接:https://www.zhihu.com/question/1897007333541904866/answer/1897960295135154357
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

FramePack的楼宣传一下我们之前的工作FAR,

FAR的核心思想: 将视频生成重构为基于长短时上下文的逐帧预测任务

1) 帧自回归模型(FAR): FAR 将视频生成任务重新定义为基于已有上下文逐帧(图像)生成的过程。

2) 长短时上下文建模: 我们观察到,随着上下文帧数量的增加,视频生成中会出现视觉 token 数量急剧增长的问题。然而,视觉 token 在时序上具有局部性:对于当前解码帧,其邻近帧需要更细粒度的时序交互,而远离的帧通常仅需作为记忆存在,无需深入的时序交互。基于这一观察,我们提出了 长短时上下文建模。该机制采用非对称的patchify 策略:短时上下文保留原有的patchify策略,以保证细粒度交互;而长时上下文则进行更为激进的patchify,减少token 数量,从而在保证计算效率的同时,维持时序模拟的质量。

张吕敏开源视频生成模型 FramePack,性能如何?
基于长短时上下文的下一帧预测

张吕敏开源视频生成模型 FramePack,性能如何?
长短时上下文的带来的token减少和长视频训练效率提升

具体的论文解读讨论可以移步:

 

© 版权声明

相关文章

暂无评论

none
暂无评论...