
本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能
当前文章:http://2xeeo7.fenshuqi.cn/feek4/tu2ys.html
发布时间:06:05:23