« July 2025 »
Mon	Tue	Wed	Thu	Fri	Sat	Sun
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Estrategias de incorporación de conocimiento sintáctico y semántico en sistemas de compresión de habla continua en castellano

Submitted by jr.rol on Thu, 28/02/2013 - 17:29

Tesis Doctorales

Autor Tesis:

José Colas Pasamontes

Fecha :

Thu, 01/07/1999

Director/es

Nombre y apellidos:

Jose Manuel Pardo Muñoz

Resumen:

Este trabajo de tesis doctoral se ha planteado analizar la problemática del proceso de comprensión de habla, no sólo desde un punto de vista científico sino también técnico. concluyendo con el diseño, implementación y evaluación de un Sistema de Comprensión de Habla en castellano. En el marco de esta tesis se ha realizado una revisión de distintas soluciones que han sido propuestas por diversos grupos de investigación internacionales para resolver el problema de la comprensión de habla. Se ha definido una arquitectura no integrada novedosa para la comprensión del habla en castellano, es decir, teniendo en cuenta características del castellano como lengua natural que no aparecen o aparecen menos acentuadas en otras lenguas. Esta arquitectura pretende ser la base de futuros trabajos en esta línea en el Grupo de Tecnología del Habla, de la Universidad Politécnica de Madrid. Con el objetivo de comprender habla perteneciente a un dominio semántica restringido (limitado por los conceptos que existen en el dominio de una aplicación concreta), esta arquitectura tiene como características principales. La robustez, es decir, la posibilidad de procesar frases que contienen errores (inserciones, borrados o sustituciones de palabras) producidos por el módulo de decodificación acústica (sistema de reconocimiento de habla continua). o que tienen rasgos de agramaticalidad producidos por la propia naturaleza del lenguaje hablado, o con problemas de cobertura a nivel léxico, sintáctico o semántico. La modularidad, que permite seguir mejorando sin necesidad de rediseñar e implementar el sistema completo. La flexibilidad, con el fin de independizar la arquitectura de una aplicación concreta dentro, lógicamente, de ciertas restricciones, impuestas por la naturaleza de los sistemas de información o sistemas de control automáticos. La potencia, definida como la posibilidad de procesar frases de un cierto nivel de complejidad lingüística. Los diferentes módulos incorporan conocimiento lingüístico de distinta naturaleza. lo que ha permitido estudiar la interacción de distintas fuentes de conocimiento lingüístico y un modo eficaz de integrarlas, en el proceso de comprensión. Se ha utilizado información semántica en forma de rasgos, que completan la ya modelada por las categorías semánticas del diccionario, a gramáticas contextuales simplificadas (definiendo lenguajes específicos de reglas y algoritmos de análisis o ejecución de estas reglas), que en forma de reglas solucionan principalmente problemas de ambigüedad semántica y elipsis, y una gramática semántica de contexto libre (utilizando el algoritmo de Earley con capacidad para procesar frases con ambigüedad) que pretende, basándose en una clasificación o taxonomía de los conceptos del dominio que reduce en gran medida las reglas necesarias, obtener la información estructural de las mismas que ayuda al procesamiento de frases de una cierta complejidad manteniendo el proceso de traducción a SQL, necesario en sistemas de información con acceso a bases de datos, dentro de unos límites de sencillez sorprendentes, mediante el uso de plantillas semánticas. Con el fin de evaluar el comportamiento del módulo de decodificación acústica se ha implementado un sistema de reconocimiento de habla continua modular, con capacidad para integrar conocimiento gramatical en base a cualquier gramática probabilística de tipo N-gram, de naturaleza morfo-sintáctica o semántica. Se han evaluado distintas gramáticas guiando el proceso de decodificación acústica. Con el fin de mantener la eficacia del este módulo a pesar de la incorporación de gramática en el proceso, se ha estudiado con profundidad un mecanismo de reducción del espacio de búsqueda ampliamente utilizado conocido como "recorte de caminos" o "recorte del haz" (beam-search), presentando un método que se ha desarrollado en esta tesis que permite la determinación del umbral de recorte basado en la probabilidad (o distancia) del mejor estado del espacio de búsqueda en cada trama (estadístico) de antemano, utilizando los datos de entrenamiento y conociendo la influencia que tendrá dicho umbral en el proceso de reconocimiento. Además, se han evaluado dos variantes ya conocidas: el uso de uno o dos umbrales de recorte, uno basado en la probabilidad (o distancia) del mejor de los últimos estados de cada modelo en cada trama (estadístico del último estado) y otro en la probabilidad (o distancia) del mejor del resto de los estados distintos del último en cada trama (estadístico del resto de los estados), y se han aportado nuevas conclusiones al respecto. Todo ello ha permitido profundizar en el funcionamiento de esta técnica ya conocida pero no tan estudiada. Además, el decodificador acústico ha sido modificado para permitir la generación de varias hipótesis (frases) de salida (las N mejores), y se ha estudiado la relación entre el valor de N (número de caminos o hipótesis) y la calidad del sistema de reconocimiento (mejora de la tasa de acierto de palabras o reducción del error del sistema), para aplicaciones como la que ha sido objeto en esta tesis. Se ha comprobado que con un número de hipótesis reducido (N muy pequeño) se consigue que el módulo acústico se recupere de muchos errores que afectarían al proceso de comprensión de la frase hablada reconocida

Calificación:

Sobresaliente Cum Laude

Adquisición de imágenes de resonancia magnética nuclear mediante técnicas de submuestreo

Submitted by jr.rol on Wed, 27/02/2013 - 18:22

Tesis Doctorales

Autor Tesis:

Pablo Roberto Pérez Alcázar

Grupos de investigación:

BIT - Tecnología de Imágenes Biomédicas

Fecha :

Thu, 18/11/1999

Director/es

Nombre y apellidos:

Andrés Santos Lleó

Resumen:

Esta Tesis presenta y evalúa el empleo de la técnica del submuestreo en el procesamiento de la señal de resonancia magnética nuclear (RMN) cuando aún se encuentra en el rango de radiofrecuencias (r.f.), con el propósito de introducir lo antes posible las ventajas potenciales del procesamiento digital, pero tratando a la vez de reducir las exigencias sobre los diferentes componentes electrónicos a utilizar. El objetivo final es lograr un sistema de reconstrucción de imágenes más versátil y de mejor calidad que los comúnmente utilizados en la actualidad. En el sistema propuesto se reemplazan las etapas analógicas tradicionales de demodulación y filtrado y amplificación en banda de base por un receptor digital directo basado en el submuestreo, reduciendo así los requerimientos de memoria y capacidad de proceso que exige el sobremuestreo. Para este tipo de receptor se establecen las limitaciones que impone el propio proceso de submuestreo y el componente clave en su aplicación, el conversor analógico-digital (CAD). En particular se ha estudiado la degradación producida en la relación señal-ruido (SNR), muy dependiente de la velocidad de muestreo y posición de la banda. Esta degradación se ha acotado, proponiéndose una configuración que permite conseguir resultados similares o mejores a los obtenidos con componentes analógicos más costosos y de comportamiento menos estable. Los resultados de los experimentos realizados con señales de RMN confirman las predicciones teóricas sobre relocalización de banda espectral, inversión de espectro, bandas de guarda, relación señal-ruido, etc., demostrando que esta técnica, aún con las limitaciones indicadas, permite la aplicación de los procesos digitales a sistemas donde el sobremuestreo no es todavía aplicable (o lo sería a un coste elevado). Las resultados obtenidos en relación con la utilización del muestreo paso-banda (submuestreo) en el proceso de adquisición de imágenes han sido satisfactorios, ya que con ellos se ha logrado la reconstrucción correcta de la información de fase y frecuencia de la imagen. Estos resultados también han mostrado que, dependiendo del tipo de sistema de RMN utilizado, es necesario establecer un método de compensación de fluctuaciones de fase debidas a la incoherencia de los pulsos de excitación. ABSTRACT This Thesis presents and evaluates the use of undersampling to acquire NMR signáis directly at intermedíate frequency or in radio frequency (r.f.) range with the purpose of introducing early in the receiver the potential advantages of the digital signal processing. The application of undersampling tries to reduce the requirements of several electronic components to be used. The ultímate objective being the realization of a more versatile and a better quality image reconstruction system than those commonly used at the present time. The proposed system uses a direct digital receiver basad on undersampling or passband sampling, which permits to replace some traditional analogue stages such as the quadrature phase detection and the baseband filtering and amplification. The limitations of this type of receiver due to the undersampling and the features of the key component used for its application, the digital-to-analog converter (ADC), have been established. In particular, the degradation in signal-to-noise ratio in terms of sampling rate and position of the signal has been studied. The degradation has been bound and an architecture that permits to get similar or better results than those obtained with more expensive and less stable analogue components is proposed. The experimental results with NMR signáis confirm the theoretical predictions about spectral band relocation, spectral inversión, guard-bands, signal-to-noise ratio, etc.. The results show that undersampling, even with its limitations, permits the use of digital processing in systems where oversampling is not available yet (or it could be at a high cost). The results related to the application of undersampling in the acquisition of images have been quite satisfactory because they have allowed the correct reconstruction of the phase and frequency Information of the image, These results have also shown that, depending on the NMR equipment, it is necessary to establish a method to compénsate the phase fluctuations due to the incoherence of the excitation pulses.

Calificación:

Sobresaliente Cum Laude

Desarrollo y caracterización de fotodetectores de radiación ultravioleta basados en nitruros del grupo III

Submitted by jr.rol on Wed, 27/02/2013 - 18:19

Tesis Doctorales

Autor Tesis:

Eva Mª Monroy Fernández

Fecha :

Thu, 24/02/2000

Director/es

Nombre y apellidos:

Fernando Calle Gómez

Elías Muñoz Merino

Resumen:

Esta tesis doctoral describe la fabricación y caracterización de fotodetectores de radiación ultravioleta basados en capas de AlxGa1-xN (o x 0,35) crecidas sobre zafiro mediante la técnica de epitaxia en fase vapor con precursores metalorgánicos. En primer lugar, se analizan las principales propiedades de los nitruros del grupo III ylos parámetros más importantes que caracterizan el comportamiento de los fotodetectores de semiconductor. Posteriormente, se detallan los distintos tipos de fotodetectores fabricados en este trabajo (fotoconductores, fotodiodos Schottky, fotodiodos metal-semiconductor-metal y fotodiodos de unión p-n y p-i-n), incluyendo sus principales prestaciones y los modelos propuestos para explicar sus comportamiento. Como demostración de su capacidad, se describe la aplicación de estos dispositivos a la detección de la radiación ultravioleta solar. Finalmente, se realiza una comparación de las prestaciones (responsividad, ancho de banda, detectividad) obtenidas para los distintos tipos de detector. Los resultados presentados confirman a las aleaciones de AlxGa1xN como los semiconductores más adecuados para la fotodetección selectiva en el rango ultravioleta del espectro.

Calificación:

Sobresaliente Cum Laude

Documento electrónico:

TD Eva Mª Monroy Fernández.pdf

Crecimiento por mbe, fabricación y caracterización de láseres de AlGaAs/GaAs/InGaAs/GaAs (111)B para emisión óptica con  >1m

Submitted by jr.rol on Wed, 27/02/2013 - 18:16

Tesis Doctorales

Autor Tesis:

Jorge Julián Sánchez Martínez

Fecha :

Wed, 01/03/2000

Director/es

Nombre y apellidos:

José Ignacio Izpura Torres

Calificación:

Sobresaliente Cum Laude

Documento electrónico:

TD Jorge Julián Sánchez Martínez.pdf

Desarrollo de fotodetectores bi-color de infrarrojos con pozos cuánticos de GaAs/AlGaAs

Submitted by jr.rol on Wed, 27/02/2013 - 18:15

Tesis Doctorales

Autor Tesis:

Álvaro de Guzmán Fernández González

Fecha :

Thu, 29/06/2000

Director/es

Nombre y apellidos:

Elías Muñoz Merino

Resumen:

En esta Tesis Doctoral se establece una Tecnología propia para el desarrollo y fabricación de dispositivos de detección de infrarrojo que trabajen simultáneamente en dos de las bandas de transmisión atmosférica, a saber, de 3 a 5 pm y de 8 a 12 pm sobre el sistema de materiales GaAs/AlGaAs. Esta Tecnología incluye todas las fases, desde el diseño, pasando por el crecimiento epitaxial y la fabricación, hasta la caracterización. El diseño de los detectores se lleva a cabo mediante el uso de herramientas de simulación que permiten obtener la estructura más adecuada para el objetivo propuesto. En cuanto al crecimiento, se realiza un estudio sistemático y exhaustivo del mismo. Se lleva a cabo un análisis previo de las estructuras para determinar los diferentes parámetros que influyen en las prestaciones del detector. A continuación, se describen los pasos seguidos por el autor para la optimización de cada uno de estos parámetros contrastando los resultados con figuras de mérito publicadas en la bibliografía. Por último, se detallan las diferentes modificaciones llevadas a cabo en algunas de las técnicas de medida para la correcta caracterización de los dispositivos. Se obtienen condiciones específicas para la medida de las estructuras y se obtiene una relación entre aspectos propios del material y aspectos propios del dispositivo. En definitiva, se consigue desarrollar finalmente los detectores, con máximos de absorción en las bandas anteriormente citadas y con prestaciones similares a otros publicados en la bibliografía.

Calificación:

Sobresaliente Cum Laude

Fabricación, caracterización y modelado de transistores de heterounión de efecto campo basados en AlGaN/GaN

Submitted by jr.rol on Wed, 27/02/2013 - 18:13

Tesis Doctorales

Autor Tesis:

José Antonio Garrido Ariza

Fecha :

Thu, 13/07/2000

Director/es

Nombre y apellidos:

Elías Muñoz Merino

Resumen:

Un material semiconductor idóneo para aplicaciones de alta potencia debe poseer excelentes propiedades térmicas y de transporte electrónico, un voltaje de ruptura elevado, gran estabilidad térmica y química, y además debe permitir la fabricación de dispositivos unipolares y bipolares con bajos elementos parásitos. Actualmente, la mayoría de los dispositivos de potencia comercializados están basados en Si y en GaAs. Sin embargo, estos materiales son semiconductores de banda prohibida (g£?p) estrecha y no cumplen todas las características que antes se han citado como óptimas para las aplicaciones de potencia. El rápido desarrollo que durante la última década han experimentado los semiconductores de gap ancho (SiC, Diamante, GaN) los hace muy atractivos como potenciales candidatos para las aplicaciones de alta potencia y alta temperatura. El SiC es uno de los semiconductores de gap ancho que fue inicialmente estudiado, sobre todo para aplicaciones de alto voltaje [Weitz95]. Más recientemente, se han desarrollado dispositivos de heterounión basados en GaN que han conseguido trabajar a altas corrientes y con tensiones de ruptura muy elevadas [Mishr98][Chen97]. La conductividad térmica, estabilidad térmica y química, campo de ruptura y anchura del gap del GaN son similares a los del SiC. Sin embargo, una de las ventajas del GaN frente al SiC es una velocidad de pico y una movilidad de los electrones mayores [Khan97]. Además, el hecho de que el GaN permita perfectamente una tecnología de heterounión (con sus ternarios AlGaN y InGaN), hacen de este material semiconductor la opción más atractiva para el desarrollo de dispositivos transistores de efecto campo (FET) que funcionen a altas potencias y altas temperaturas.

Calificación:

Sobresaliente Cum Laude

Crecimiento y caracterización de Nitruros del grupo III sobre Si(111) por epitaxia de haces moleculares

Submitted by jr.rol on Wed, 27/02/2013 - 18:11

Tesis Doctorales

Autor Tesis:

Miguel Ángel Sánchez García

Fecha :

Mon, 27/11/2000

Director/es

Nombre y apellidos:

Enrique Calleja Pardo

Resumen:

Los nitruros del grupo III (GaN, Aln, InN) han sido considerados durante muchos años como semiconductores ideales para la fabricación de dispositivos optoelectrónicos que funcionen en el margen azul-ultravioleta (UV). La posibilidad de sintetizar los distintos compuestos ternarios, hacen que estas aleaciones de gap directo cubran un amplio espectro de energías, desde los 1,9 eV (rojo) del InN, pasando por 3,4 eV (UVB) del GaN, hasta los 6,2 eV (UVC) del AIN. El principal objetivo de esta tesis ha sido el crecimiento de nitruros del grupo III (GaN, AIN y AixGa1-xN) por epitaxia de haces moleculares (MBE) asistido por plasma de nitrógeno, utilizando substratos de Si en la dirección (111). La razón de flujos moleculares de los elementos III(Ga, Al) y V(N) utilizada durante el crecimiento es el parámetro más crítico que controla la morfología de la capa crecida así como sus propiedades ópticas y eléctricas. Un estudio del valor de dicha razón confirma que razones III/V con exceso de nitrógeno (III/V<1) da lugar a un crecimiento de microcristales columnares, mientras que con razones ligeramente ricas en Ga (III/V mayor o igual que 1) se obtienen capas compactas. Las capas de GaN con mejor calidad cristalina son crecidas utilizando una capa intermedia (buffer) de AIN y un crecimiento en dos etapas: un inicio con una velocidad muy lenta 0,08 para luego continuar con una velocidad típica de 0,48. El dopado tipo-n de las capas de GaN y AlGaN se obtiene utilizando Si, alcanzando niveles por encima de 10 elevado a 19 cm.-3. El dopado tipo-p se analiza con Be, Mg y C. de los tres aceptores, el Be resulta ser la especia aceptora con menor energía de activación (90meV) según las medidas ópticas. No se puede medir una conductividad eléctrica tipo-p debido a problemas de solubilidad del Be en el GaN y a la posibilidad de que exista un fenómeno de autocompensación al formarse Be intersticial, que actúa como un donante. Se estudia la manera de aumentar la solubilidad del Be en GaN utilizando el dopado simultáneo en capas de GaN con Be y Mg. Los resultados obtenidos en las medidas ópticas parecen indicar un aumento de la cantidad de Be en posición substitucional. Por último, la calidad cristalina de las capas de GaN y AlGaN crecidas sobre Si(111) se verifica mediante el crecimiento y fabricación de dos dispositivos básicos como son: un diodo emisor de radiación ultravioleta (LED) y un fotodetector de barrera Schottky en el intervalo azul-ultravioleta. El diodo electroluminiscente, basado en una simple heterounión GaN:Mg/AlGaN, tiene su emisión dominante centrada en 365 nm para una corriente de polarización de 15 mA, con un valor de FWHM de 8 nm. El fotodetector fabricado muestra una responsividad de 5 mA/W y un contraste UV/visible mayor de 10 elevado a 4. Con estos últimos resultados se demuestra la posibilidad de utilizar la técnica de MBE para obtener capas de nitruros del grupo III sobre substratos de Si(111), y de esta forma compartir la tecnología consolidada del Si con el potencial optoelectrónico que ofrecen los nitruros del grupo III.

Calificación:

Sobresaliente Cum Laude

Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

Submitted by jr.rol on Wed, 27/02/2013 - 18:09

Tesis Doctorales

Autor Tesis:

Javier Macías Guarasa

Fecha :

Fri, 30/11/2001

Resumen:

La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación.

Calificación:

Sobresaliente Cum Laude

Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

Submitted by jr.rol on Wed, 27/02/2013 - 18:05

Tesis Doctorales

Autor Tesis:

Ascensión Gallardo Antolín

Fecha :

Tue, 29/10/2002

Director/es

Nombre y apellidos:

Jose Manuel Pardo Muñoz

Resumen:

El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de RAH que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. En la presente Tesis se ha analizado el comportamiento de un sistema de RAH frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. Para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. Con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros "clásicas" basadas en el análisis de Fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (CMN y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. Asimismo, se ha estudiado la posibilidad de combinación de los parámetros obtenidos de este modo con los obtenidos mediante análisis de Fourier. Mientras que los parámetros basados en la transformada ondicular presentan un funcionamiento similar a los convencionales, la combinación propuesta mejora las tasas de reconocimiento del sistema de manera significativa. A continuación, hemos abordado el problema de la optimización conjunta de los parametrizadores basados en la transformada ondicular y el clasificador basado en modelos ocultos de Markov mediante la aplicación de técnicas de extracción discriminativa de rastos (DFE). Dicha propuesta ha sido evaluada en dos tareas de distinta complejidad, obteniendo unos resultados consistentemente mejores a los obtenidos con las parametrizaciones convencionales. Por último, en el contexto de las distorsiones provocadas por la presencia de ruido aditivo, se ha realizado un estudio comparativo entre técnicas de transformación de parámetros (substracción espectral generalizada) y transformación de modelos acústicos (combinación de modelos en paralelo, PMC). Se han propuestos diversas modificaciones a los algoritmos anteriores basadas en la aplicación de una función de entorno en el dominio de las energías en banda que presenta dos características importantes: conceptualmente, es muy similar para ambos tipos de transformaciones y es más realista que las utilizadas habitualmente. En concreto, en esta función de entorno se ha incorporado una estimación del término cruzado (que habitualmente es ignorado) y que está relacionado con la correlación del habla limpia y el ruido (o el habla ruidosa y el ruido). Se ha evaluado esta estrategia para dos ruidos estacionarios distintos a varias relaciones señale a ruido. Los resultados muestran que esta función de entorno modificada mejora las tasas de reconocimiento obtenidas con las técnicas conveniconales, especialmente en el caso de transformación de parámetros.

Calificación:

Sobresaliente Cum Laude

Mejora de servicios automáticos por teléfono con reconocimiento de habla: nueva generación de servidores vocales interactivos

Submitted by jr.rol on Wed, 27/02/2013 - 18:03

Tesis Doctorales

Autor Tesis:

Rubén San Segundo Hernández

Fecha :

Tue, 19/11/2002

Director/es

Nombre y apellidos:

Jose Manuel Pardo Muñoz

Resumen:

En este trabajo se ha realizado un análisis e investigación en tres aspectos importantes que forman parte de un Servidor Vocal Interactivo (SVI): reconocimiento automático del habla, obtención de medidas de confianza para la detección de errores en los módulos de reconocimiento y compresión de lenguaje natural, y por último, se ha invertido un esfuerzo importante en el módulo de gestión del diálogo. En cuanto al módulo de reconocimiento, se ha realizado un estudio de la tarea de deletreo en castellano y se ha implementado el primer reconocedor de nombres deletreados en castellano con tasas de acierto comparables a los realizados en otros idiomas. En un primer paso se han evaluado diferentes estrategias de reconocimiento eligiendo una solución basada en una arquitectura de hipótesis y verificación que ofrece un mejor compromiso entre tasa de reconocimiento y tiempo de proceso. Sobre esta arquitectura, se han incorporado nuevas ideas para hacer frente a las peculiaridades de la tarea de deletreo en nuestro idioma, como la generación de modelos de silencios contextuales. Por otro lado, se ha desarrollado un reconocedor de habla continua para frases que expresan fechas y horas. Ambos sistemas han sido diseñados y entrenados para su funcionamiento por línea telefónica e independiente del locutor. En relación con el análisis de medidas de confianza, se ha trabajado fundamentalmente sobre el sistema DARPA Communicator desarrollado en el Centro de Investigación de Lenguaje Hablado (CSLR: The Center for Spoken Language Research) de la Universidad de Colorado (Boulder) en Estados Unidos. Sobre este sistema se han realizado estudios independientes para los niveles de palabra, concepto semántico y frase completa. Por otro lado, también se han realizado análisis para los reconocedores implementados en la presente tesis, centrándonos en los niveles de frase para el sistema de nombres deletreados, y en el nivel de palabra para el reconocedor desarrollado en el dominio de fechas y horas. En esta parte del estudio se propone la utilización de las medidas de confianza como heurístico para la combinación de varias hipótesis de reconocimiento obtenidas de diferentes decodificadores. En relación con la gestión del diálogo se propone una metodología de diseño en la que se combina información de diferentes fuentes: análisis de base de datos, observación de conversaciones reales, simulación del servicio y funcionamiento con usuarios reales. Esta metodología está formada por 5 fases. En la primera fase se realiza un análisis de la base de datos con la información disponible para ofrecer el servicio. En la segunda etapa "diseño por intuición", se propone la técnica de "braim-storming" para plantear diferentes opciones de diseño. En el diseño por observación (fase tercera), se analizan conversaciones entre los usuarios y operadores humanos para evaluar diferentes alternativas de diseño. En la cuarta fase (diseño por simulación) utilizamos la herramienta de Mago de Oz para simular una interacción usuario-sistema. Por último, en la etapa de mejora iterativa se describe la utilización de medidas de confianza para el diseño de los mecanismos de confirmación y se describe una técnica para el modelado del usuario basada en niveles de destreza. La presentación de esta metodología se ha realizado mediante su aplicación al caso de un servicio de información y reserva de billetes de tren.

Calificación:

Sobresaliente Cum Laude

Lang

Featured

Featured events

Tesis Doctorales

Estrategias de incorporación de conocimiento sintáctico y semántico en sistemas de compresión de habla continua en castellano

Adquisición de imágenes de resonancia magnética nuclear mediante técnicas de submuestreo

Desarrollo y caracterización de fotodetectores de radiación ultravioleta basados en nitruros del grupo III

Crecimiento por mbe, fabricación y caracterización de láseres de AlGaAs/GaAs/InGaAs/GaAs (111)B para emisión óptica con  >1m

Desarrollo de fotodetectores bi-color de infrarrojos con pozos cuánticos de GaAs/AlGaAs

Fabricación, caracterización y modelado de transistores de heterounión de efecto campo basados en AlGaN/GaN

Crecimiento y caracterización de Nitruros del grupo III sobre Si(111) por epitaxia de haces moleculares

Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

Mejora de servicios automáticos por teléfono con reconocimiento de habla: nueva generación de servidores vocales interactivos

LINKS OF INTEREST

WHERE ARE WE?

SEARCH YOUR SPECIALITY