El artículo «The Effects of a Visual Fidelity Criterion on the Encoding of Images» de James Mannos y David Sakrison, publicado en 1974, presenta un análisis profundo sobre la selección de un criterio de distorsión visual para la codificación de imágenes. Basándose en la teoría de la tasa-distorsión de Shannon, los autores buscan establecer una medida numéricamente valorada de distorsión que se corresponda razonablemente con la evaluación subjetiva de los observadores humanos.
Mannos y Sakrison señalan primero el reto principal de aplicar la teoría de la tasa-distorsión a la transmisión de imágenes: la falta de una medida de distorsión que sea congruente con la percepción subjetiva de calidad de la imagen. Para abordar esto, el estudio implementa dos enfoques. El primero involucra mediciones psicofísicas para determinar el nivel en que una perturbación pseudoaleatoria en el patrón de intensidad de una imagen es detectable por un sujeto humano. El segundo, y el elegido por los autores, consiste en elegir una clase de medidas de distorsión para las cuales se pueda calcular R(d*) y simular la codificación óptima. Comparan luego diferentes medidas de distorsión simulando la codificación de una imagen fija a una tasa fija en bits por elemento de imagen y juzgando subjetivamente la calidad de las imágenes codificadas.
El experimento se realizó utilizando tres imágenes originales: una roca con mucho detalle, un pie sobre una superficie lunar y un retrato conocido como «Ronnie». Se variaron varios parámetros del modelo de distorsión, incluyendo la frecuencia espacial y las funciones no lineares, y se evaluó cuál modelo producía imágenes que más se asemejaban a las originales según el criterio de un grupo de observadores.
Se encontró que el pico óptimo de la función (A(f)) se situaba alrededor de 8 ciclos por grado, una observación que se mantuvo consistente para las diferentes imágenes y tasas de bits consideradas. Además, se determinó que una función no lineal (f(u) = u^{0.33}) equilibraba mejor la reducción del ruido y el mantenimiento del contraste en las áreas oscuras y claras de las imágenes, superando a otras funciones como el logaritmo o funciones menos convexas.
Las conclusiones sugieren que, con un modelo de distorsión definido adecuadamente, se pueden mejorar notablemente las imágenes transmitidas mediante una técnica de pre-énfasis y pos-procesamiento. Esta técnica, ampliamente utilizada en otras áreas de la ingeniería, se propone aquí como un método eficiente para mejorar la fidelidad visual de las imágenes transmitidas sin aumentar la tasa de bits requerida.
El análisis proporciona una valiosa referencia para futuros trabajos en la transmisión de imágenes, destacando la importancia de un criterio de fidelidad visual que se alinee tanto con la subjetividad humana como con los fundamentos teóricos.