Agora Inc 是全球领先的实时参与应用程序接口 (API) 公司之一,最近推出了其实时转录解决方案。

据这家全球公司称,新解决方案将为开发人员提供快速、准确且价格合理的转录和字幕服务。此外,用户将从 API 中受益,因为它可以集成所有应用程序和服务。这也有可能在扩展现实 (XR) 计划中得到更大程度的采用。

由于典型转录程序的局限性,Agora 开发了实时转录服务来解决此类问题。例如,许多转录员在嘈杂的环境、多人说话的问题和重口音中苦苦挣扎。然而,Agora 的解决方案旨在通过准确的语音转文本和串音处理来解决此类挑战,即使在网络带宽较差的情况下也是如此。
Agora-Transcription.jpg

Agora 实时转录 API 的主要功能
一些主要功能包括:

实时转录将音频和视频转录成字幕,以扩大与观众的联系
说话者标记以确定说话者以进行准确转录
可搜索的文字记录,用于查找说话者的单词和短语
转录录音以利用基于云的录音服务进行现场录音
一个频道上最多三位主持人的基于频道的转录
借助 Agora 的平台,用户可以将文本即时翻译成隐藏式字幕,用于内容共享、重播和审核。然后,他们可以在电话会议、直播和其他广播活动中使用该服务。

开发人员还可以将解决方案扩展到最多 100 人的视频通话和多频道直播。有听力和语言障碍等可访问性问题的用户也可以利用该解决方案来访问内容。通过消除语言和交流障碍,可以更广泛地采用创意内容。

此外,此类解决方案可以创建大量用例,例如会议、讲座、m 和新闻发布会的实时注释。零售商和客户支持团队还可以将他们身临其境的内容实时转录给观众。

用户可以在虚拟、增强和混合现实 (VR/AR/MR) 内容的实时对话中玩带有注释通信的游戏。相反,沉浸式演示、表演、展览和讲座可以应用 Agora 的平台来接触更多的观众。

实时参与的实时转录
Agora 首席执行官兼联合创始人 Tony Zhao在一份声明中表示,

“我们新的实时转录解决方案的推出将为开发人员和品牌提供即时音频转录所需的工具,并为他们的客户提供可访问和卓越的交互。这项强大的技术旨在与任何应用程序或服务无缝集成,我们很自豪能够提供这一尖端解决方案,使企业能够以新的方式与客户互动。”

赵继续说,寻求接触受众的行业将“受益于实施我们的实时转录技术。”

他继续说,该解决方案将使医疗保健、媒体、娱乐和教育行业受益。他补充说,这些是“准确快速转录和字幕内容的能力至关重要”的关键领域。

Agora 加强沉浸式解决方案
该公告发布之际,声网继续为企业用户创新其沉浸式解决方案。2 月下旬,该公司宣布已开发出一种人工智能 (AI) 支持的噪声抑制解决方案。该程序帮助用户在通话期间进行清晰、畅通的通信,开发人员有可能将该解决方案集成到 XR 应用程序上。

借助深度学习、AI 赋能的增强功能,Agora 的噪音抑制工具消除了噪音、回声、混响和低延迟问题。开发人员可以设计跨 Windows 和 macOS、Android 和 iOS、Flutter React Native、Electron 和基于 Unity 的应用程序的解决方案。

新工具包还可以改进现场直播和元宇宙交互,让人们完全沉浸在 Agora 的 3D 空间音频创新中。

全球公司已在其定制硬件上引入了类似的解决方案。增强现实公司 XRAI Glass透露,它已经为听障人士开发了软件,以在去年提供隐藏式字幕工具。

经过试点计划后,该公司在 Google Play 商店中发布了其解决方案。该设备的软件将对话转换为眼镜视野 (FoV) 上的字幕。使用 Nreal Air 智能眼镜,XRAI 还允许人们识别说话者、转录讨论和音译九种语言。

文章来源: xrtoday
我看AR登载此文出于传递更多信息的目的,并不代表本站观点,如有侵权请联系删除