Delip Rao, director ejecutivo y cofundador de la empresa emergente R7 Speech Sciences, ha vuelto a poner de relieve el problema de que los sistemas de reconocimiento de voz tienen más problemas con las voces femeninas.No nuevo

El problema se conoce desde hace algún tiempo y se ha enfocado más con la popularidad de los asistentes digitales activados por voz como Siri de Apple, Alexa de Amazon o Google Home.

¿Por qué?

Según los expertos en lingüística, el problema clave es que las mujeres tienen voces más agudas que los hombres, y tienden a ser más tranquilas y suenan más "susurrantes" cuando hablan.

Con el habla, por ejemplo, la frecuencia fundamental media (FO media) se puede expresar como un número alrededor del cual se distribuyen los tonos vocales. El FO para hombres es de alrededor de 120 Hz, pero para mujeres es mucho mayor a 200 Hz.

MFCC

Además, otro problema para los sistemas de reconocimiento de voz surge cuando intentan procesar palabras y sonidos en MFCC (coeficientes cepstrales de frecuencia Mel). Se sabe que las voces de las mujeres dan una señal acústica menos robusta, y esta señal puede enmascararse fácilmente con ruido. Estos dos desafíos también dificultan las cosas para los sistemas de reconocimiento de voz.

Falta de capacitación diversa

Dado que los sistemas de reconocimiento de voz también se basan en un elemento de IA, requieren capacitación para acostumbrarse a reconocer ciertas características vocales. Los expertos en lingüística, por lo tanto, también creen que la falta de ejemplos de capacitación diversos del habla de las mujeres también puede ser un factor que contribuya a los problemas que enfrentan los sistemas de reconocimiento de voz actuales.

Sesgos de género como resultado

Algunos comentaristas, por lo tanto, predicen un posible empeoramiento de los problemas de sesgos de género con los sistemas de reconocimiento de voz si estos problemas no se abordan.

Los expertos han señalado la importancia de que los sistemas de formación utilicen proporciones iguales de hombres y mujeres para evitar el problema de que sean muy buenos reconociendo datos masculinos y muy malos reconociendo datos femeninos.

Mezcla étnica

Los mismos expertos también han resaltado posibles sesgos basados ​​en el origen étnico si los sistemas de reconocimiento de voz no están entrenados utilizando una amplia mezcla étnica y de género.

¿Qué significa esto para sus negocios?

Con los asistentes digitales ahora en el lugar de trabajo en los sistemas informáticos (por ejemplo, Alexa for Business), y con los bots de IA que se utilizan, por ejemplo, para manejar los sistemas de servicio al cliente (con un elemento de voz), es importante que las mujeres y/o ciertos grupos étnicos no estén en un desventaja al usar los sistemas.

El problema ya se conoce y, por lo tanto, las empresas deberían tomar medidas para asegurarse de que los sistemas de reconocimiento de voz funcionen bien para todos los grupos demográficos y brinden igualdad como parte de su valor.