Los avances tecnológicos en sistemas de almacenamiento de información, compresión de datos multimedia (audio, imagen y video) e incremento en el ancho de banda en las redes como el internet, han creado el ambiente propicio para contar con nuevas aplicaciones en rubros como la televisión digital, aprendizaje a distancia (e-learning) y sistemas de videoconferencia.
Sin embargo, las aplicaciones de video digital requieren de una buena calidad de servicio, menores niveles de error o pérdida de información, y una red pública como el internet no puede ofrecerla por las características mismas del video digital, donde mucha información es generada y transmitida en lapsos muy cortos.
Ante estos problemas, el Centro de Investigación en Matemáticas (CIMAT) realiza la investigación Detección de rostros con aplicación a sistemas de video conferencias, cuya metodología se enfoca a la detección facial en ambientes complejos que se ejecutan durante tiempo real en sistemas de videoconferencias.
Este trabajo se enfoca a mejorar los sistemas de videoconferencia que separando la información del fondo (todo lo que no sea rostro) de la información relevante (o primer plano) que son los rostros involucrados en la transmisión.
“En la mayoría de los casos, la información de fondo no es importante, y únicamente nos fijamos es en el primer plano por lo que debe presentarse con alta calidad. Lo que nos conduce a la acción de separar los distintos tipos de información (fondo y primer plano o rostros)”, explicó el doctor Rogelio Hasimoto Beltrán, líder de la investigación. Como las pérdidas de información son inevitables durante una videoconferencia, agregó, lo que sí es posible evitar es que se afecten datos relevantes en el proceso de comunicación mediante un sistema de clasificación (separación del fondo y rostro) y la protección de información basada en códigos de control/corrección de errores.
Estos códigos de protección permiten que la información que pudiera llegar dañada se recupere sin necesidad de retransmitirla, ahorrando recursos de la red. De esta manera los rostros presentes en un sistema de videoconferencia, además de enviarse con una excelente calidad, son protegidos contra la pérdida de información, mientras que el resto se envía sin protección con una calidad media o inclusive baja.
Hasimoto Beltrán detalló que la detección de rostros en sistemas de videoconferencia es una primera etapa de esta investigación. A mediano plazo contempla la identificación de cualquier objeto de interés en determinada aplicación; por ejemplo, la clasificación de personas (cuerpo completo), automóviles y cualquier objeto en movimiento principalmente en sistemas de seguridad.
De acuerdo con el investigador, el objetivo final es crear sistemas automáticos para el análisis de video que se puedan enfocar directamente en la parte central y protegerla contra errores de transmisión, por ejemplo, en un partido de futbol, la escena principal sería alrededor del balón y quién lo lleva, por lo tanto el sistema protegería dicha región contra cualquier error de transmisión. Por otro lado, en términos generales, la detección de rostros consiste en localizar un número desconocido de ellos y procesarlos en tiempo real. Sin embargo, el problema se complica dependiendo de la posición de la cara (frontal o de perfil), presencia o ausencia de características faciales como bigote, barba o lentes, y condiciones de iluminación.
Por lo que este proyecto desarrolló una nueva metodología para la detección de rostros en tiempo real basado en un modelo de color de piel compatible con los actuales estándares de codificación de imagen y video como los son JPEG-2000 (imágenes) y MPEG-4 (video).
El algoritmo desarrollado por el CIMAT no impone restricciones respecto a la complejidad de la escena analizada, es decir, bajo cualquier fondo, color de piel, niveles de iluminación o caras parcialmente bloqueadas puede funcionar. Las únicas sugerencias, añadió el investigador, es que la escena/imagen esté iluminada con luz blanca (de otra manera afectaría el color natural de la piel) y las caras estén frontales o cuasi frontales.
“Una vez localizadas las posibles zonas de piel en la escena, el siguiente paso es determinar si la superficie encontrada es un rostro (podría ser una mano o brazo) utilizando como puntos de referencia sus características geométricas: forma elíptica, relación largo por ancho, y anatómicas de la cara como nariz, ojos y boca”, puntualizó.
Localizados los rostros, la información correspondiente pasa al codificador de video para que realice una compresión diferencial, ofreciendo mayor compresión (menor calidad) al fondo y menor compresión (mejor calidad) al primer plano o rostro. De manera adicional se protege el primer plano mediante técnicas de corrección de errores para evitar su pérdida durante la transmisión; y el fondo se puede perder sin dañar la calidad del video ya que sería reemplazado por escenas parecidas.
A decir del especialista, este proceso de encontrar la información relevante en una videoconferencia y protegerla durante la transmisión evita la contratación de más ancho de banda y/o instalación de tecnologías costosas a nivel individual y empresarial, además optimiza el uso de la red y provee una mejor calidad de imagen bajo las mismas condiciones que las tecnologías tradicionales.
Sin embargo, las aplicaciones de video digital requieren de una buena calidad de servicio, menores niveles de error o pérdida de información, y una red pública como el internet no puede ofrecerla por las características mismas del video digital, donde mucha información es generada y transmitida en lapsos muy cortos.
Ante estos problemas, el Centro de Investigación en Matemáticas (CIMAT) realiza la investigación Detección de rostros con aplicación a sistemas de video conferencias, cuya metodología se enfoca a la detección facial en ambientes complejos que se ejecutan durante tiempo real en sistemas de videoconferencias.
Este trabajo se enfoca a mejorar los sistemas de videoconferencia que separando la información del fondo (todo lo que no sea rostro) de la información relevante (o primer plano) que son los rostros involucrados en la transmisión.
“En la mayoría de los casos, la información de fondo no es importante, y únicamente nos fijamos es en el primer plano por lo que debe presentarse con alta calidad. Lo que nos conduce a la acción de separar los distintos tipos de información (fondo y primer plano o rostros)”, explicó el doctor Rogelio Hasimoto Beltrán, líder de la investigación. Como las pérdidas de información son inevitables durante una videoconferencia, agregó, lo que sí es posible evitar es que se afecten datos relevantes en el proceso de comunicación mediante un sistema de clasificación (separación del fondo y rostro) y la protección de información basada en códigos de control/corrección de errores.
Estos códigos de protección permiten que la información que pudiera llegar dañada se recupere sin necesidad de retransmitirla, ahorrando recursos de la red. De esta manera los rostros presentes en un sistema de videoconferencia, además de enviarse con una excelente calidad, son protegidos contra la pérdida de información, mientras que el resto se envía sin protección con una calidad media o inclusive baja.
Hasimoto Beltrán detalló que la detección de rostros en sistemas de videoconferencia es una primera etapa de esta investigación. A mediano plazo contempla la identificación de cualquier objeto de interés en determinada aplicación; por ejemplo, la clasificación de personas (cuerpo completo), automóviles y cualquier objeto en movimiento principalmente en sistemas de seguridad.
De acuerdo con el investigador, el objetivo final es crear sistemas automáticos para el análisis de video que se puedan enfocar directamente en la parte central y protegerla contra errores de transmisión, por ejemplo, en un partido de futbol, la escena principal sería alrededor del balón y quién lo lleva, por lo tanto el sistema protegería dicha región contra cualquier error de transmisión. Por otro lado, en términos generales, la detección de rostros consiste en localizar un número desconocido de ellos y procesarlos en tiempo real. Sin embargo, el problema se complica dependiendo de la posición de la cara (frontal o de perfil), presencia o ausencia de características faciales como bigote, barba o lentes, y condiciones de iluminación.
Por lo que este proyecto desarrolló una nueva metodología para la detección de rostros en tiempo real basado en un modelo de color de piel compatible con los actuales estándares de codificación de imagen y video como los son JPEG-2000 (imágenes) y MPEG-4 (video).
El algoritmo desarrollado por el CIMAT no impone restricciones respecto a la complejidad de la escena analizada, es decir, bajo cualquier fondo, color de piel, niveles de iluminación o caras parcialmente bloqueadas puede funcionar. Las únicas sugerencias, añadió el investigador, es que la escena/imagen esté iluminada con luz blanca (de otra manera afectaría el color natural de la piel) y las caras estén frontales o cuasi frontales.
“Una vez localizadas las posibles zonas de piel en la escena, el siguiente paso es determinar si la superficie encontrada es un rostro (podría ser una mano o brazo) utilizando como puntos de referencia sus características geométricas: forma elíptica, relación largo por ancho, y anatómicas de la cara como nariz, ojos y boca”, puntualizó.
Localizados los rostros, la información correspondiente pasa al codificador de video para que realice una compresión diferencial, ofreciendo mayor compresión (menor calidad) al fondo y menor compresión (mejor calidad) al primer plano o rostro. De manera adicional se protege el primer plano mediante técnicas de corrección de errores para evitar su pérdida durante la transmisión; y el fondo se puede perder sin dañar la calidad del video ya que sería reemplazado por escenas parecidas.
A decir del especialista, este proceso de encontrar la información relevante en una videoconferencia y protegerla durante la transmisión evita la contratación de más ancho de banda y/o instalación de tecnologías costosas a nivel individual y empresarial, además optimiza el uso de la red y provee una mejor calidad de imagen bajo las mismas condiciones que las tecnologías tradicionales.
No hay comentarios:
Publicar un comentario