El artículo titulado «A noise-estimation algorithm for highly non-stationary environments» escrito por Sundarrajan Rangachari y Philipos C. Loizou en febrero de 2006, aborda el desarrollo y evaluación de un algoritmo de estimación de ruido diseñado específicamente para entornos altamente no estacionarios, donde las características espectrales del ruido cambian rápidamente. Este es un desafío significativo en aplicaciones de mejora del habla, ya que una estimación precisa del ruido es esencial para la efectividad de los algoritmos de mejora.
Los métodos tradicionales, como la detección de actividad de voz (VAD) para actualizar la estimación del ruido durante los silencios, no son efectivos en entornos no estacionarios. El algoritmo propuesto por Rangachari y Loizou se distingue por su capacidad de actualizar la estimación del ruido continuamente en cada marco de tiempo del habla, utilizando factores de suavizado dependientes de la probabilidad de presencia de señal en cada bin de frecuencia.
El algoritmo comienza con el cálculo del espectro de potencia suavizado del habla ruidosa utilizando una ecuación recursiva de primer orden. Luego, se define una relación entre el espectro de potencia del habla ruidosa y su mínimo local para determinar la presencia de señal. Este mínimo local se actualiza continuamente para adaptarse rápidamente a entornos de ruido altamente no estacionarios.
Para manejar la detección de presencia de señal, el algoritmo compara la relación calculada con un umbral dependiente de la frecuencia. Si la relación excede el umbral, el bin de frecuencia se clasifica como presente en señal, de lo contrario, se clasifica como ausente. Esta decisión se refina continuamente mediante una función recursiva de primer orden, lo que permite que el algoritmo se adapte rápidamente a cambios abruptos en los niveles de ruido.
El artículo incluye una comparación exhaustiva del método propuesto con otros algoritmos existentes, como el de estadísticas mínimas (MS) de Martin, el seguimiento de mínimos continuos de Doblinger y las técnicas basadas en promedios ponderados de Hirsch y Ehrlicher. En las pruebas, el algoritmo propuesto mostró una mejor capacidad de adaptación en entornos de ruido rápidamente variables, con tiempos de adaptación mucho menores (0.5 segundos) en comparación con los 1-1.5 segundos de otros métodos.
Los resultados experimentales, tanto subjetivos como objetivos, confirmaron la superioridad del algoritmo propuesto. En pruebas subjetivas, la calidad del habla mejorada mediante el algoritmo propuesto fue preferida sobre la obtenida por otros métodos en entornos de ruido mixto y de ruido único. Los evaluadores encontraron que el método propuesto producía una señal de habla más natural y libre de artefactos. En cuanto a las evaluaciones objetivas, el algoritmo propuesto presentó menores valores de error cuadrático medio (MSE) y mejores puntuaciones de SNR segmental y razón de verosimilitud logarítmica (LLR), alineándose más consistentemente con las evaluaciones subjetivas en comparación con otros métodos.
En conclusión, el artículo por Rangachari y Loizou introduce un avance significativo en la estimación de ruido para la mejora del habla en entornos no estacionarios, logrando una adaptación rápida y precisa a cambios abruptos en el ruido ambiental, mejorando así tanto la inteligibilidad como la calidad perceptual del habla mejorada.