Delphi专题 ·

Delphi使用百度语音合成服务

简介

百度语音合成服务,基于HTTP请求的REST API接口,将文本转换为可以播放的音频文件。
合成的文件格式为 mp3,pcm(8k及16k),wav(16k),具体见aue参数

  • 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
  • 目前只有中英文混合这一种语言,优先中文发音。示例: " I bought 3 books” 发音 “three”; “ 3 books are bought” 发音 “三”; “我们买了 3 books” 发音“三”

文档地址:http://ai.baidu.com/docs#/TTS-API/top

调用流程

创建应用

  • 1、登录百度云服务平台,没有账号请先自行注册https://cloud.baidu.com/
  • 2、在产品服务——人工智能——百度语音 下创建一个应用,输入应用名称和应用描述,点击创建应用。创建成功后点击查看应用详情。会生成API Key和Secret Key

获取token

可得到如下结果

scope中含有audio_tts_post 表示有语音合成能力,没有该audio_tts_post 的token调用接口会返回502错误。 在结果中可以看见 token = 1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328,在2592000秒(30天)后过期
响应数据包如下所示,其中 “access_token” 字段即为请求 REST API 所需的令牌, 默认情况下,Access Token 有效期为30天,开发者需要对 Access Token的有效性进行判断,如果Access Token过期可以重新获取。

请求方式及参数基本说明

语音合成接口支持 POST 和 GET两种方式, 推荐POST方式请求。 正式地址:http://tsn.baidu.com/text2audio 或 https://tsn.baidu.com/text2audio

  • 1、POST 方式(推荐), 文本小于2048个中文字或者英文数字。
  • 2、GET 方式,拼接后的url总长度不多于1000个字符,不推荐长文本合成使用。

请求方式和参数

参数 可需 描述
tex 必填 合成的文本,使用UTF-8编码。小于2048个中文字或者英文数字。(文本在百度服务器内转换为GBK后,长度必须小于4096字节)
tok 必填 开放平台获取到的开发者access_token(见上面的“鉴权认证机制”段落)
cuid 必填 用户唯一标识,用来计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内
ctp 必填 客户端类型选择,web端填写固定值1
lan 必填 固定值zh。语言选择,目前只有中英文混合模式,填写固定值zh
spd 选填 语速,取值0-15,默认为5中语速
pit 选填 音调,取值0-15,默认为5中语调
vol 选填 音量,取值0-15,默认为5中音量
per 选填 发音人选择, 0为普通女声,1为普通男生,3为情感合成-度逍遥,4为情感合成-度丫丫,默认为普通女声
aue 选填 3为mp3格式(默认); 4为pcm-16k;5为pcm-8k;6为wav(内容同pcm-16k); 注意aue=4或者6是语音识别要求的格式,但是音频内容不是语音识别要求的自然人发音,所以识别效果会受影响。

源码下载

此处内容需要 并付费购买才可见

Delphi使用百度语音合成服务源代码

2.99
0.0 满分5 基于 0 个用户评分
立即购买

参与评论