前段时间,阿里开源了万相视频生成大模型Wan2.1系列,在评测集VBench中,万相2.1超越了Sora、Luma、Pika等国内外开源模型。
榜单时间(2025-4-1)发稿时间,wan2.1模型仍然处于榜首的位置,sora目前排在第五,腾讯的混元模型在15的位置,可灵在22,可以看出这个实力是非常强悍的,关键是阿里免费开源了这个模型,质量评分最高,比其他的闭源的商业模型效果还要不错!
那么接下来阁主就教大家免费部署!针对消费级的电脑,阿里也是上架了1.3b的模型,适合大家的电脑使用,教程是基于ComfyUI框架实现,支持文生视频(T2V)和图生视频(I2V)功能:
一、环境准备
- 硬件要求
- 显卡:NVIDIA显卡(RTX 3060及以上,显存≥8GB)
- 显存需求:
- T2V-1.3B模型:最低8.2GB(生成480P视频)
- T2V-14B/I2V-14B模型:推荐≥16GB显存(支持720P)
- 软件依赖
- Python 3.10+、Git
- CUDA 12.1+(50系显卡需CUDA 12.8)
- 建议使用虚拟环境(如venv)隔离依赖
二、部署流程(以下所有文件,都可以官网下载,阁主统一整理了链接在最下面)
步骤1:安装ComfyUI
1、下载整合包官网下载,或者秋叶大佬的版本,Windows和Mac端都有
这里还是优先推荐N卡,毕竟很多大模型优先匹配的是N卡,安装comfyui的时候,会自动安装cuda等
步骤2:下载模型文件
从HuggingFace下载以下组件并放置到对应目录:
组件类型 | 下载地址 | 存放路径 |
---|---|---|
文本编码器 | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders |
CLIP视觉模型 | clip_vision_h.safetensors | ComfyUI/models/clip_vision |
VAE视频编码器 | wan_2.1_vae.safetensors | ComfyUI/models/vae |
视频生成模型 | wan2.1_i2v按需选择 | ComfyUI/models/diffusion_models |
模型选择建议:
视频生成模型选择:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn,如果你是8G内存显卡,选择wan2.1_t2v_1.3B_fp16.safetensors
文本编码器umt5:如果你的显卡显存≥12G,那么可以选择fp16这个,如果只有8G,那么就选择fp8
步骤3:详细步骤
因为文件比较多,大家可能比较乱,那么阁主就一步一步来,大家对照着就不会出错了!
3.1文生视频:以8G显卡内存为例
(1)将下载好的 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入:ComfyUI/models/text_encoders/
(2)将下载好的 wan_2.1_vae.safetensors 放入:ComfyUI/models/vae/
(3)将下载的视频生成模型 wan2.1_t2v_1.3B_fp16.safetensors 放入:ComfyUI/models/diffusion_models/
(4)下载 text_to_video_wan.json 这个工作流文件,打开ComfyUI界面,拖拽JSON文件至窗口加载工作流
这里就可以修改你的提示词,支持中英文输入,输入完点击执行即可在右边查看生成的视频,右键就可以保存下来。
3.2图生视频:
步骤都是一样,只不过模型不一样。
(1)下载视频生成模型 wan2.1_i2v 放入:ComfyUI/models/diffusion_models/ (视频生成模型里面有i2v和t2v,一个是图生视频,一个是文生视频,里面可以选择自己电脑适配的模型image图像,txt是文生视频)
(2)下载 clip_vision_h.safetensors 放入:ComfyUI/models/clip_vision/
(3)下载 image_to_video_wan_example.json 这个工作流文件,打开ComfyUI界面,拖拽JSON文件至窗口加载工作流
如果你之前用的文生视频,使用图生视频的时候,记得这里切换一下模型,点一下右边的箭头就会自动切换,记得图生视频的模型名字是i2v
最后就可以上传你的图片,加上你想要让图片怎么变化的提示词,点击执行就可以了!
当然你觉得部署麻烦也可以使用官网体验,积分的,每天免费的也足够,所有链接都在下面了!
暂无评论内容