LOADING STUFF...
AI大模型

Goku

Goku视频生成模型是由中国香港大学与字节跳动联合推出的一款AI视频生成工具,能够实现文本到视频、图像到视频以及文本到图像等多种生成方式。

标签:

Goku 视频生成模型概述

基本信息

  • 开发团队:中国香港大学与字节跳动联合研发
  • 技术框架:基于 ​Rectified Flow Transformer 的联合图像-视频生成模型
  • 核心目标:推动广告创作、内容制作等领域的创新,降低创作门槛
  • 资源入口
    • 官网Goku MovieGenBench Demos(含技术文档与在线体验)
    • 开源地址GitHub 仓库(提供完整代码与模型库)

核心功能与优势

  1. 多模态生成能力
    • 文本到视频(T2V)​:根据文本描述生成高质量视频(如电影预告、广告片段)。
    • 图像到视频(I2V)​:基于静态图像生成动态视频内容。
    • 文本到图像(T2I)​:支持高分辨率图像生成。
  2. 高质量生成性能
    • VBench 评测:总分 ​84.85​(截至2024-10-07排名第二),超越多数商业模型(如Pika、Gen-3)。
    • 关键指标优势:在动态表现(Dynamic Degree)、主体质量(Subject Quality)等维度领先。
  3. 低成本与高效率
    • 广告视频制作成本降低 ​100倍,支持快速生成复杂场景(如虚拟数字人、产品展示)。
  4. 特色应用场景
    • 虚拟数字人:生成自然动作的虚拟主播、客服角色。
    • 广告优化(Goku+)​:针对广告场景优化,生成稳定且表现力丰富的视频。
    • 多语言与文化适配:支持中文诗歌等文化元素生成(如“江畔独步寻花”场景)。

技术亮点

  • Rectified Flow 技术:增强视频与图像标记的交互,提升生成流畅度与一致性。
  • 数据与模型设计:精细化的高质量图像/视频数据训练,结合Transformer架构优化。
  • 多任务支持:同时覆盖图像生成、视频插帧、风格迁移等任务。

应用场景示例

  • 广告与电商:快速生成产品展示视频(如时尚走秀、动态商品演示)。
  • 影视与创意:生成电影级场景(如火山城堡、雪原猛犸象)。
  • 教育与科普:模拟自然现象(如蜜蜂采蜜慢动作、珊瑚礁生态)。
  • 虚拟交互:创建虚拟角色(如编程的羊驼、实验室熊猫科学家)。

性能对比(VBench 2024)​

模型总分动态表现主体质量时间一致性
Goku-T2V84.8576.1171.2985.72
Gen-382.3260.1466.8265.09
Pika-1.080.6947.5061.8761.03

数据统计

相关导航