Contributions to the Analysis, Design and Evaluation of Strategies for Corpus-based Emotional Speech Synthesis
EI trabajo realizado en esta tesis ha abordado diferentes estudios orientados a la mejora de un sistema de generacion de respuesta mediante la incorporacion de un sintetizader de habla con emociones en espai'ioJ. La tesis doctoral se ha abordado en tres fases fundamentales, cada una de las cuales esta relacionada con una de las contribuciones cientfficas planteadas originalmente.
En primer lugar, y con el objetivo de obtener informacion sobre la relevancia de las distintas componentes de la senal de habla en los procesos de identificaci6n de emociones, se ha realizado un estudio que demuestra la complementariedad entre los aspectos segment ales y suprasegmen¬tales, caracterizando su importancia relativa para cada una de las emociones bajo estudio. Sobre una base de datos existente, se ha realizado un adJisis de la naturaleza de las emociones en la voz mediante estrategias de identificaci6n automatica y la evaluaci6n perceptual de estimulos gener¬ados mediante metodos de sintesis per copia. Adicionalmente, se ha realizado un estudio sobre la normalizaci6n de caracteristicas acusticas con el fin de implementar sistemas de identificaci6n de emociones multi-locutor y multi-idioma. Como complemento al analisis, se ha evaluado el comportamiento de un sistema automatico de identificaci6n basado en redes bayesianas dinami¬cas a la hora de identificar emociones reales (no actuadas), dicho sistema ha sido evaluado dentro
de la primera competicion internacional de reconocimiento automatico de emociones.
En segundo lugar, los conocimientos adquiridos de este analisis inicial han sido la base para la adquisicion de un corpus pionero en el area de sintesis de emociones, dada la cobertura de su contenido emocional multimedia y multi-locutor. Este corpus ha sido imprescindible para adaptar y evaluar exhaustivamente la aplicaci6n a la sintesis de habla emocional, de dos de las tecnicas de alta calidad empleadas actual mente por la comunidad cientifica: sintesis por selecci6n de unidades, dominante en la ultima decada; y sintesis parametrica basada en modelos ocultos de Markov, tecnica emergente y base de las investigaciones futuras en sintesis de voz durante la pr6xima decada. Tras un exhaustivo y novedoso analisis de los resultados obtenidos en una evaluaci6n perceptual, se ha comprobado que ambas tecnicas producen voz con emociones de la misma calidad. Sin embargo, a pesar de que las emociones se identifican mejor de forma global cuando sintetizamos voz mediante la tecnica de selecci6n de unidades, y que la intensidad emocional resultante es mayor al minimizar el model ado y el procesado de la senal de voz, es la sintesis de voz basada en modelos ocultos de Markov la que modela mejor la informaci6n
prosodica, de maxima relevancia en cuanto a la expresi6n de €ITIociones 5e refiere. El sistema
basado en modelos ocultos de Markov adaptado al castellano ha sido gal ardonado con el premio al mejor sistema en la competici6n nacional de conversi6n texto a voz dentro de las Jornadas de Tecnologia del Habla en 2008.
En tercer lugar, sabre las voces generadas utilizando una de las tecnicas anteriores (concreta¬mente las generadas exitosamente basandose en modelos ocultos de Markov, dada la flexibilidad en la manipulaci6n de parametros del modele que ofrece esta tecnica y los excelentes resultados obtenidos en la competici6n), se ha disenado, implementado y evaluado una nueva estrategia de transformaci6n de emociones independiente del locutor. Dicha estrategia est a basada en la extrapolacion de la emoci6n sobre aquellas caracteristicas halladas como relevantes en el analisis inicial. De los resultados de la evaluaci6n, se ha comprobado que los patrones acusticos ema¬cionales son extrapolados parcialmente a una locutora objetivo sin por ella perder similitud con la voz de dicha locutora, y que la intesidad de la emoci6n extrapolada puede ser modificada con exito variando un coeficiente de extrapolación. Sin embargo, la intensidad con la que se extrapola la emoci6n tiene un impacto negativo en la calidad de la voz sintetizada, especialmente cuando dicha extrapolaci6n se centra en la transformaci6n de parametros espectrales. Finalmente, se ha propuesto una nueva medida sobre la bondad de la extrapolación/transformacion de emociones independiente del locutor, basandose en los resultados perceptuales en cuanto a calidad de voz, identificaci6n de la emoci6n e identificaci6n del locutor objetivo se refiere.
- Inicie sesión para enviar comentarios
- Versión para impresión