2026年AIGC内容检测工具Top5推荐,哪个评价最好?
各位好,我是张瑞全, 乃美摄科技研发中心的高级AI算法专家。今日要分享的主题是, 美摄科技针对快速落地基于“AIGC+数字人”的数字化内容生产所制定的整体方案。
-01-
整体概括

美摄科技的产品, 主要分成六个部分, 有AI数字人, 有视音频处理SDK, 有AI智能处理, 有汽车及智能硬件方案, 还有云端/PC端视频处理方案, 另外还有开发及设计服务。

美摄的技术已经在超过一千多款实际产品当中落地, 特别是针对数量众多的手机厂商以及大型互联网客户, 面向多款拥有超千万级DAU的应用, 美摄的SDK技术运用多种算法对大量硬件和系统作出适配, 在保障各类情形下兼容性的同时, 提供高质量的服务。

高精度数字人, 是那种基于语音以及文字实时予以驱动的, 被称作实时语音数字人, 它主要是用在数字客服、以及车载形象、还有APP助手等场景之中。而虚拟主播呢, 更多的是应用于新闻播报、直播助手以及虚拟讲解等场景当中。

-02-
数字人形象生成
数字人领域的核心内容在于数字人形象的三维渲染。美摄科技自主研发的三维图像渲染技术具备六个特殊之处, 第一是拥有强大的渲染能力, 第二是能够多端互通, 第三是处理效率很高, 第四是所占体积小巧, 第五是可作快速拓展, 第六是制作过程简便便捷, 它可为数字人制作给予巨大的辅助作用。

现今美摄科技具备基于物理的材质渲染支持, 拥有实时阴影处理支持, 有着法向量贴图支持, 存有全局环境光支持, 包含屏幕空间环境光遮蔽支持, 能为各类环境中的数字人给予全面且逼真的渲染能力。为增添可玩性与用途, 能够在数字人身上增添各异的配饰等。目前美摄科技的渲染引擎能够很好地支持辅助道具与数字人动作的同步, 以使数字形象更为逼真。

若要实行即时声音输出, 那便要求数字人具备唇音同步本领。美摄科技依靠AI训练构建了一套别具一格的唇音分析算法, 得以达成自然逼真的形象呈现。借由对录入的语音开展轻量化AI剖析, 取得真实人物的面部神情, 接着把AI算法输出的成果与语音内容予以融合, 驱动数字人模型, 达成即时的三维唇音同步成效。美摄AI唇音同步技术拥有高效、无延迟、过渡流畅自然、适配多种语音系统等特性。

基于自行研发的Morphing技术, 美摄渲染引擎能够支持多达54种人脸基础表情, 这些基础表情彼此相互组合, 从而构成了拟真的数字人面部系统, 该系统几乎能够囊括所有的人脸表情, 进而为数字人模型生动的表情展现奠定基础, 左边5张图是借助基础的表情融合出的一些复杂面部动作, 中间是一个实时驱动的样例, 并且还携带了头发的物理效果。

与此同时, 我们还给出了极为周全的数字人设计工具, 设计师能够把它跟C4D、Maya等工具相配合, 迅速开展贴图更换、效果调节, 达成高效设计。其中, 美摄自行研发的数字人设计工具与渲染器在内部运用同一套引擎, 设计效果跟最终渲染效果全然相同, 所见即为所得。设计制作出来的模型效果能够迅速地部署发布。

这张图属于数字人的一列基本流程, 美摄实时语音数字人融合了多家合作伙伴的语音系统, 它可以迅速领会用户输入的文字信息, 并返还答案, 还能生成相应的数字人语音, 以此驱动数字人展开实时语音播报以及动作表达, 整套数字人方案具备优良的开放性与可拓展性, 能够快速跟各种主流的AI聊天系统、语音系统相联合, 进而形成对应的方案。

部分用户期望所生成的数字人能更契合自身形象, 针对于此我们给出了形象自动生成的办法。用户只要提供一张照片, 系统便会提取特征并生成相应的数字人形象。基于这个, 我们还有人脸属性检测加自动形象生成的算法, 依据检测分析的结果自动增添配饰, 从而形成用户专有的虚拟形象。当下已支持性别、年龄、眼型、发型等诸多人物属性的分析。

除去自动生成形象这一情况之外, 用户能够在生成的形象之上, 对预先所提供的、可以进行修改的元素加以改动, 进而自定义数字人形象, 以此满足个性化需求。

要应对运营成长方面的需求, 像是本土化这件事的适配, 还有节日层面、热点这类情形, 美摄科技给出了能够自定义的配饰。依据基础属性, 借助捏脸换装这种方式能够延伸出不一样的形象。
-03-
AIGC+数字人

计算机视觉、图像处理以及深度学习等技术被综合利用起来, 进而实现虚拟视频的生成, 这一技术被称作虚拟视频合成技术, 它涵盖语音驱动、动作驱动和换脸这三个关键技术。语音驱动是利用语音来对口型以及面部表情加以驱动, 以此生成讲话视频。动作驱动是依据源视频输入的动作、口型、表情等情况, 促使目标视频人物做出一样的动作、表情以及口型。换脸是把目标视频里的人脸替换成某个指定的形象, 同时让目标视频中人物的动作、表情和口型维持不变。

这里有一张图, 它呈现的是和表情有关系, 还有口型预测的那种基本逻辑。运用某个语音特征提取算法, 去对语音特征做提取, 依据提取好的特征来开展口型参数的预测。之后按照口型参数去进行3D面部渲染, 并且把它和真实人脸做拟合, 进而生成最后的渲染图。

有一种在特征提取层面当下常用的算法, 它是MFCC特征提取, 还有一种当下常用的算法, 它是深度特征提取, 目前美摄科技推出了自己研究开发的综合算法, 以及与之对应的特征提取算法。

深度学习算法被用于口型预测, 以初步生成对口型参数, 同当前语音相对应。为可使口型在帧与帧之间的变化更为平滑, 我们运用了两种方法, 一是要把一个窗口以内的预测结果去做加权平均, 借此能对冲预测的口型加以平滑, 二又是利用LSTM具备的记忆能力,以此来对口型预测予以平滑。


讲话时, 口型有变化, 人脸表情会作对应变化, 肌肉也跟随改变。为让表情更贴合口型, 我们预测了整个人脸参数。依据预测出的人脸参数,借助渲染引擎, 对当前人脸加以拟合, 并凭借渲染得出一套与人脸参数对应的人脸表情片。最终, 依据渲染出的3D人脸表情, 结合视频真正对应的人脸及mask眼模,使用GAN网络完成最终渲染。
基于客户以及用户多种多样不一样之使用场景, 美摄科技给出三种不同样式, 以使众人能够迅速生成自我想要之数字人形象。此三种形式分别为, 照片自动生成形象, 视频自动生成形象与GLB模型自动生成形象。
基于照片能快速生成所需语音播报数字人的方案, 是图片生成数字人形象方案。用户仅需上传一张人物照, 依据照片以及录入的文本, 便可产生对应的播报视频。

视频自动生成数字人形象方案呈现于上图, 其中, 用户能够上传一段视频, 随后, 系统会把视频里人物的口型替换成期望的口型, 并且会维持原来视频中的动作以及表情, 最终生成播报形象。

美摄科技能够支持借助传统3D模型GLB文件来迅速生成数字人, GLB文件是那种以图形语言传输格式予以保存的3D模型, 它运用二进制格式去存储和3D模型相关联的信息, 涵盖节点层级、摄像机、材质、动画以及网格, 在以GLB生成数字人形象之际, 能够把它转变为美摄自己研发的3D文件格式“.ARSCENE”, 转换之后的效果包能够通过美摄SDK在不一样的平台上面去进行实时渲染驱动。
近来, GPT极为火爆, 美摄科技把GPT的混合语义理解能力, 与美摄既存的语音交互系统联姻, 借助GPT针对语义的理解及回答炮制具有交互倾向的数字人。用户仅是输入一段语音或者文字, 借助GPT对语音或文字予以理解, 把返回之答案变为语音播报。此种方案更大程度上应用于大屏、车载、APP数字人这类产品之内。

此外, 我们还进行了把GPT跟视频剪辑以及数字人相结合的尝试, 而于此情形下, 用户所需要做的仅仅是填写一句话, 并且设定好一些要求, 如此一来, 系统便能够借助GPT返回分镜脚本, 之后再从中提取出所需标签, 紧接着由系统从媒资库里面智能找寻与之对应的图像以及视频资料, 然后用户能够选择推荐素材, 一键套用模板即可, 直接制作出预览视频, 这样极大地提高了视频创作效率, 另外我们还提供了云剪技术, 这时客户能够借助云剪对数字人视频进行进一步的包装编辑。