2026 年 6 月 23 日,字节跳动在北京举行的火山引擎 FORCE 大会上发布视频生成模型 Seedance 2.5。其核心突破在于将原生单段视频时长推进到 30 秒(此前主流模型单段上限多在 15 秒左右),并支持同时输入至多 50 个全模态参考素材联合生成。版本号从 2.0 直接跳至 2.5,被视为字节跳动主动宣告代际差异、而非常规小幅更新的信号。

核心能力

按官方与多家媒体(AIbase、klingaio、The Decoder 等)的一致描述,Seedance 2.5 的关键能力包括:

  • 30 秒原生单段直出:在一次连续生成中产出 30 秒视频,而非多段拼接,被 The Decoder 等称为「突破 30 秒门槛」。
  • 50 素材联合生成:可同时输入至多 50 个全模态参考素材(图像、音频、参考视频等),相较 Seedance 2.0 的 12 个输入上限提升约四倍,显著增强可控性。
  • 局部一致性编辑:支持替换画面中的特定元素,同时保留原有运动、镜头角度与光照——即「只改一处、不影响其余帧」的语义级编辑。
  • 配套模型:同场预告图像模型 Seedream 5.0 Pro(支持交互式编辑与多图层分离,可直接输出可修改的分层设计图);音频模型 Seed-Audio 1.0(据简报支持多角色对白与零样本拟音,本文未独立核到其技术细节)。
  • Seedance 2.0 同步升级:支持原生 4K 分辨率。

火山引擎总裁谭待将其定位为面向全球企业的测试版本,正式公测预计 2026 年 7 月初。

纵向脉络与横向定位

纵向看,Seedance 的版本线为 1.0 Lite(2025 年 5 月)→ 2.0(2026 年 2 月)→ 2.5(2026 年 6 月)。从 15 秒级到 30 秒原生单段、从 12 素材到 50 素材,时长与可控性是其迭代主轴;跳号命名进一步强化「代际」叙事。

横向看,2026 年视频生成赛道处于密集竞争期,媒体报道中频繁出现的对照对象包括 Kling 3.0 与 Google Veo 3.1。各模型在时长、分辨率、多素材控制与编辑一致性等维度展开竞争,Seedance 2.5 此次以「时长 + 多素材联合 + 局部编辑」组合作为差异点。此外,字节跳动同场发布的还有跨过「生产级能力阈值」的 Doubao 2.1 Pro,显示其在图像、视频、音频与语言多模型方向的集中布局。

⚠️ 待核实:Seed-Audio 1.0 的多角色对白与零样本拟音等能力,来源于加更简报转述,本文未从一手或多家英文信源独立核到具体技术参数;以官方正式说明为准。30 秒为「原生单段」与各竞品「单段时长」口径的严格对照,亦需以各家官方定义为准。

30 秒原生单段直出与 50 素材联合生成,是现阶段视频生成在时长与可控性上的一次显著推进;叠加图像、音频模型同场发布,反映国产生成式 AI 在统一内容创作管线方向的集中布局。对视频创作、广告与影视相关的视觉教学与研究而言,这是一个具真实产品节点、可用于实验观察的对象。

参考来源

  • AIbase(中文/英文报道):https://news.aibase.com/news/29094
  • klingaio(技术概览):https://klingaio.com/blogs/seedance-2_5-official-release
  • The Decoder(30 秒门槛):https://the-decoder.com/bytedances-seedance-2-5-breaks-the-30-second-barrier-for-ai-video-generation/
  • imagineToVideo(预览/路线):https://imaginetovideo.com/blog/seedance-2-5-preview-and-integration-roadmap
  • BigGo Finance:https://finance.biggo.com/news/4955506b-cb27-44dc-a69b-d0490170d046