Goku 视频生成模型概述
基本信息
- 开发团队:中国香港大学与字节跳动联合研发
- 技术框架:基于 Rectified Flow Transformer 的联合图像-视频生成模型
- 核心目标:推动广告创作、内容制作等领域的创新,降低创作门槛
- 资源入口
- 官网:Goku MovieGenBench Demos(含技术文档与在线体验)
- 开源地址:GitHub 仓库(提供完整代码与模型库)
核心功能与优势
- 多模态生成能力
- 文本到视频(T2V):根据文本描述生成高质量视频(如电影预告、广告片段)。
- 图像到视频(I2V):基于静态图像生成动态视频内容。
- 文本到图像(T2I):支持高分辨率图像生成。
- 高质量生成性能
- VBench 评测:总分 84.85(截至2024-10-07排名第二),超越多数商业模型(如Pika、Gen-3)。
- 关键指标优势:在动态表现(Dynamic Degree)、主体质量(Subject Quality)等维度领先。
- 低成本与高效率
- 广告视频制作成本降低 100倍,支持快速生成复杂场景(如虚拟数字人、产品展示)。
- 特色应用场景
- 虚拟数字人:生成自然动作的虚拟主播、客服角色。
- 广告优化(Goku+):针对广告场景优化,生成稳定且表现力丰富的视频。
- 多语言与文化适配:支持中文诗歌等文化元素生成(如“江畔独步寻花”场景)。
技术亮点
- Rectified Flow 技术:增强视频与图像标记的交互,提升生成流畅度与一致性。
- 数据与模型设计:精细化的高质量图像/视频数据训练,结合Transformer架构优化。
- 多任务支持:同时覆盖图像生成、视频插帧、风格迁移等任务。
应用场景示例
- 广告与电商:快速生成产品展示视频(如时尚走秀、动态商品演示)。
- 影视与创意:生成电影级场景(如火山城堡、雪原猛犸象)。
- 教育与科普:模拟自然现象(如蜜蜂采蜜慢动作、珊瑚礁生态)。
- 虚拟交互:创建虚拟角色(如编程的羊驼、实验室熊猫科学家)。
性能对比(VBench 2024)
模型 | 总分 | 动态表现 | 主体质量 | 时间一致性 |
---|---|---|---|---|
Goku-T2V | 84.85 | 76.11 | 71.29 | 85.72 |
Gen-3 | 82.32 | 60.14 | 66.82 | 65.09 |
Pika-1.0 | 80.69 | 47.50 | 61.87 | 61.03 |