在电信领域,我们的前辈也曾经在PSTN网络部署的时候遇到过诸如回声和传输衰减等影响通话质量的问题,但他们通过回声抑制和增益补偿等技术很好的解决了这些问题,使得PSTN网络的话音质量非常稳定。但是这种情况在最近几年有所改变,随着全球电信运营商大量部署NGN网络,PSTN与VoIP网络不断融合,话音质量问题又被提出来,似乎成了我们难以回避的障碍。下面我们分析一下话音质量及其测试方面的问题。
2.1 话音质量的测试标准和测试方法
在测量话音质量时,需要研究三类基本的服务质量:
●收听质量:指用户对呼叫过程中所听到的声音质量的评价。
●会话质量:指用户在整个通话过程中基于收听质量和会话能力而对呼叫作出的评价,包括回音和延迟等可能影响通话的相关问题。
●传输质量:指用于承载话音信号的网络连接的质量。传输质量测量是与细节呼叫质量测量相对的一种网络服务质量测量。
话音质量测量的目的是通过主观或客观的测量方法,即通过人为的测量项目或基于计算机的测量工具,对一种或多种以上的话音质量类别给出一个可信的估计。
(1)主观收听质量测量
主观测量是一种久经考验的话音质量测量方法,但这种方法成本太高,费时也太长。有一种更广为人知的主观类测量方法,叫做绝对种类定级(Absolute Category Rating,ACR)测量。
在ACR测量中,收听者按照从1~5的5级损伤指标对一系列音频文件进行分级:5(非常好),4(好),3(可以),2(较差),1(差)。
在取得了每个收听者给出的得分之后,计算所有音频文件的一般或平均意见得分(Mean Opinion Score, MOS)。为了使ACR测量得到可信的测量结果,接受测量的人数至少应在16个以上,而且测量应该在一个安静的环境下,在可控的条件下完成。
通常,ACR测量的得分随收听者的增加而趋向稳定。为了降低测量得分的可变性并帮助衡量测量结果,测量中通常会包括一些参考文件,这些文件中包含了“为业界接受的”MOS得分。
(2)会话质量测量
在会话测量中,通常会将一群收听者放在交互式通信的环境下,并要求他们通过一个电话或VoIP系统完成一项任务。测量人员在系统中加入延迟和回声等效应,然后调查测量主体对连接质量看法如何。
延迟效应对会话质量的影响随任务不同而有很大差异。对于非交互式的任务而言,几百毫秒的单向延迟都是可以忍受的;而对交互性较强的任务,哪怕是很短的延迟都可能造成会话困难。
延迟对不同任务影响不同的这种情况就造成在会话呼叫质量的解释上出现问题。例如,两个相同的VoIP系统连接都会产生300ms的单向延迟,但一个系统用于高交互性的商业谈判,而另一个系统则用于朋友间的非正式聊天。那么前一个系统中的用户可能会觉得呼叫质量很差,而后一个系统中的用户则可能根本注意不到这一延迟。
很显然,这种会话质量测量也属于主观评价的范畴。下面看看客观评价。
(3)基于样本的客观测量
ITU开发了P.861(PSQM)和更新的P.862(PESQ),力图用成本更低的客观测量法来做为主观收听质量测量的补充。采用这些测量技术,可以通过比较送入系统中的一个原始参考文件与输出的受损文件之间的差异,得到由传输系统或CODEC引入的失真。这些技术的初衷虽然是为了CODEC的实验室测量,但在VoIP网络测量中也得到了广泛使用。
P.861(PSQM)和P.862(PESQ)算法将参考信号和受损信号都分成较短的交迭样本块,计算每一块的傅立叶变换系数,并比较他们的系数。P.862算法最后给出一个PESQ得分,该得分与MOS的范围相近,但它并不是MOS的准确映射。新的PESQ-LQ得分更接近收听质量MOS。这些算法都同时要求访问源文件和输出文件才能测量后者相对于前者的失真。
(4)话音质量的测试方法
大部分语音测试设备(例如Spirent的Abacus)都是采用基于ITU P.861与P.862规范标准,对网络或者设备进行客观评价。这里我们用Spirent的Abacus5000来举例说明话音质量的评价方法。Abacus5000是基于呼叫的测试系统,它可以在模拟用户产生呼叫的同时生成真实的媒体流。针对音频,可提供3-tone,Resilient测试;针对话音,能够发送标准的男声、女声、混音等.wave格式文件。标准的测试文件从发送端经过被测网络传输后到接收端,测试系统通过话音质量评估手段,比较原始语音文件和接收到的语音文件间的异同来对被测系统进行评估,得到PSQM(P.861)或者PESQ(P.862)。系统还可以提供客观测试方法到主观测试结果的相关性对应,即PSQM/PESQ到MOS的转换。图2所示的为Abacus5000的语音质量测试方法。
图2 Abacus5000的语音质量测试方法
2.2 语音质量参数
语音质量主要有三种ITU标准:
(1)MOS(ITU-P.800),1~5分,5分最好,属于主观评价指标;
(2)PSQM(ITU-P.861),0~6.5分,0分最好,属于客观评价指标;另外,PSQM+属于PSQM评分标准的扩展,评分标准与PSQM相同;
(3)PESQ(ITU-P.862),-0.5~4.5分,4.5分最好,属于客观评价指标,又称之为“话音清晰度”指标;另外,PESQ_LQ是PESQ评分标准的扩展,范围为1~4.5分,更接近于MOS的1~5分标准;
当然,影响话音质量的参数指标还有以下几种:
(4)回声(ECHO),指传输系统由于阻抗不匹配等原因,对声源发出的声音产生的“反射”现象,即说话者很快听到的自己发出的声音。一般,人的耳朵能够识别的回声以150ms为界,超过150ms的回声,人耳能够比较明显的分辨,会产生反感,在150ms以内的回声,一般人都可以接受,基本听不出来。
(5)语音间断(HIT),指由于丢包等传输原因或编解码等原因造成的语音不连续,人耳听到的是断断续续的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音间断都必须统计,语音间断累计和与总通话时长的比值,称为“语音间断比”,通常这个值不应该超过2%。
(6)语音滑动(CLIP),指由于静音压缩等编解码原因造成的语音边缘模糊,通常是由静音到有声部分或者由有声到静音部分出现声音丢失,人耳听到的是失真的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音滑动都必须统计,语音滑动累计和与总通话时长的比值,称为“语音滑动比”,通常这个值为零,否则不能入网。
以上六个部分,是用户可以感受到的话音质量指标参数,因此属于QOE的范畴。我们再介绍一下QoS的话音质量指标,这些参数包括时延、抖动、丢包、乱序等,通常与传输质量有关,不属于用户能够体验的部分,因此属于QoS的范畴。
(7)时延(DELAY),指语音在传输系统中需要的传输时间。时延一般分为单向时延(One-Way-Delay)和双向时延(Round-Trip-Delay);单向时延指语音(文件)从发端到收端的传送时间,它直接反映了网络传输质量,对话音质量产生间接影响;双向时延指语音(文件)从发端到收端再回到发端所经历的时间,一般比两倍的单向时延要长,因为收端要对语音进行处理。单向时延的测试精度取决于两点,其一为测试仪表的精度,其二为收发两端采用的共同时钟的精度,思博伦的Abacus5000能够达到2ms的测试精度;网络测试中若采用NTP-Server时钟同步,则其时钟精度为1~10ms,若采用GPS/CDMA为时钟同步源,则其时钟精度小于1ms。一般认为,单向时延应该不超过150ms。
(8)抖动(JITTER),指语音包时延的差值。如果每个语音包的时延忽大忽小,人耳听到的声音忽快忽慢,用户的感觉会很差。因此,抖动虽然反映的是传输质量问题,但它也一定程度上影响了话音质量。
(9)丢包(LOSS),指VoIP条件下,RTP语音包在传输过程中的丢失,反映在QOE的参数中,与语音间断(HIT)有一定的关联。一般丢包,都是按照语音包丢失的数量或百分比率计量,如丢包1%,发现100个丢包等。统计的方法,主要根据RTCP包中的RTP语音包数量差值计算出来。
(10)乱序(OUT-OF-ORDER),指VoIP条件下,RTP语音包在传输过程中的次序颠倒,对话音质量产生间接影响。统计的方法,主要根据RTCP包中的RTP语音包的序号计算出来。
|
| |