Primeros pasos con el reconocimiento de voz

Como os dijimos en el post anterior, estamos investigando la posibilidad de que el usuario pueda hacer la búsqueda de la película mediante la voz (el programa debería reconocerla y mostrar en el texto search el resultado. Para esto estamos usando pocketsphynx. Se trata de una serie de clases en C que importamos a nuestro proyecto y que tras conseguir que compilen, deberemos proporcionar tres cosas.
La primera de ellas es un archivo con la voz del usuario, para ello usaremos el Speak Controller, un porgrama de ejemplo de Apple (del Dev centre) que nos permitirá grabar nuestra voz a 44Khz, pero aquí lo hemos tenido que modificar un poco, puesto que el Sphinx sólo admite voz a 16 Khz. El aspecto que tiene la pantalla principal con esto añadido es la que podéis ver aquí:

Tras esto tenemos que proporcionar dos tipos de archivos, uno con la forma en la que se pronuncian las palabras y la palabra en sí; y otro con la posibilidad que tienen las palabras de aparecer. Para crear estos ficheros lo primero es generar un archivo TXT en el que en cada línea ponemos los comandos que puede recibir el Sphinx. Es importante que ninguno de éstos exceda de 35 caracteres.
Así proporcionamos la siguiente lista (se amplia si hacéis click):
El archivo lo seleccionamos en la página web que proporciona el Sphinx y éste nos genera el diccionario fonético, que se recoge a continuación (las palabras con su pronunciación):
Y las probabilidades con que aparecen dichas palabras:

Ahora mismo estamos intentando que todo esto funcione y de unos resultados aceptables. Como siempre, os mantendremos informados.
Ya sabéis donde encontrarnos para cualquier duda o aclaración.