EMO | SunTech

类型

状态

日期

链接

摘要

标签

分类

图标

密码

humanaigc.github.io

https://humanaigc.github.io/emote-portrait-alive/

📖 功能描述

EMO (Emote Portrait Alive) 是一个表现力丰富的音频驱动肖像视频生成框架，由阿里巴巴智能计算研究所开发。该框架能够输入单张参考图像和音频（如说话、唱歌），生成具有表现力的面部表情和各种头部姿势的有声头像视频。框架支持生成任何持续时间的视频，具体取决于输入音频的长度，同时能在长时间视频中保持角色的身份特征。

🔍 核心知识点

💡 主要功能

音频驱动视频生成：输入单张人物图片和音频（说话或唱歌），生成同步的视频

多语言支持：支持多种语言的音频输入，包括中文、日语、粤语、韩语、英语等

多样风格适应：可处理历史人物、绘画、3D模型和AI生成的内容

快速节奏处理：能够跟上快节奏的音频，确保即使是最快的歌词也能与角色动画同步

跨演员表演：可让电影角色以不同语言和风格进行独白或表演

🛠️ 应用场景

肖像唱歌视频生成：将静态肖像转化为演唱特定歌曲的动态视频

跨语言内容制作：让同一角色用不同语言进行表达，适用于多语言内容创作

历史人物复活：为历史人物或名画中的人物注入生命力，使他们能够说话或唱歌

角色配音适配：为不同角色匹配各种语音内容，扩展角色表演可能性

📊 技术原理

该框架主要由两个阶段组成：

帧编码阶段：使用ReferenceNet从参考图像和运动帧中提取特征

扩散处理阶段：通过预训练的音频编码器处理音频嵌入，结合面部区域掩码和多帧噪声控制面部图像生成

框架中应用了两种注意力机制：Reference-Attention（用于保留角色身份）和Audio-Attention（用于调节角色动作），并利用Temporal Modules操作时间维度，调整运动速度。