AI 工具箱整理
spooking 归属分类: 杂谈 评论数: 0 个

LatentSync

高效口型同步扩散模型(视频对口型)

2025-02-07T03:45:36.png

是字节开源的用于口型同步的扩散模型,只需提供角色视频和要同步的音频即可生成。该模型对硬件的要求适中,仅需 6.5 GB 的 GPU 即可运行,适合大多数开发者和研究人员使用。此外,@fffiloni大佬还提供了一个在线演示可以玩一下。

https://github.com/bytedance/LatentSync

LivePortrait

2025-02-07T03:53:15.png

2025-02-07T03:55:56.png

一个开源的肖像动画生成框架,能够将静态图像与输入参考视频结合,生成逼真的动态表情视频。该框架特别注重泛化能力、可控性和效率,通过提升视频质量的同时优化了框架性能‌

https://github.com/KwaiVGI/LivePortrait

JoyVASA

基于扩散音频驱动生成人或动物头像的面部及头部动画 (图片生成对口型视频)

https://jdh-algo.github.io/JoyVASA/

2025-02-07T02:24:34.png