.
Xataka
Contenidos contratados por la marca que se menciona

+info

Píxeles. Apertura. Balance de blancos. Doble flash. Gran angular. Y, entre toda la jerga clásica, nuevos conceptos como las NPU (unidad de procesamiento neuronal), chips de IA que ayudan a que nuestras fotos sean lo más alucinantes posibles. También hay unas siglas que debemos sumar a todo lo anterior: ISP, o “procesador de imagen”, el componente de hardware encargado de que todos los miles de datos recopilados por foto tengan algún tipo de sentido.

¿Significa eso que nuestras cámaras móviles son ya inteligentes, sin necesidad de una IA extra? Sí y no. El ISP entiende que cuando hay poco luz hay que aumentar la sensibilidad ISO, reconoce con mayor o menor acierto la distancia del objeto a enfocar. Pero, dependiendo de cómo se interpreten esos datos en crudo, el resultado será uno u otro.

Que una foto sea genuinamente buena —sin atender a tratados de estética— es fruto de muchos más factores que las specs técnicas de la cámara de nuestro smartphoneVamos a intentar resolver a qué fundamentos de hardware y software atiende esa foto, qué factores son los responsables, desde el momento que pulsamos el disparo virtual hasta que el sistema nos entrega la foto final.

Prototipando una cámara

 

Nuestros smartphones, como todo gadget tecnológico, son fruto de una dilatada carrera de pruebas, conversaciones, estimaciones y algún que otro dolor de cabeza. Una odisea tecnológicaTodo comienza con un prototipado, donde se esboza un brief estratégico. Dependiendo de cada fabricante, esto ocurre con un año o más antelación.

¿Y qué factores son tenidos en cuenta? El departamento técnico de BQ, que trabaja y diseña la cámara en Madrid, nos responde. En el caso de la cámara, los que siguen:

Características del sensor y lente:

  • Se evalúan las tendencias del mercado en torno a la apertura, el tamaño de píxel y las funcionalidades.
  • Se realiza un estudio junto a los proveedores para conocer exactamente qué sensores y qué lentes se ajustan más a las necesidades del mercado. Cada parte afecta al todo, así que un sensor X abrirá el abanico de una lente Y. La meta es satisfacer los distintos requisitos de calidad: nitidez en el centro y esquinas, resolución, apertura…

Dimensiones de la cámara:

  • Una vez hecha la propuesta de sensor y la lente, se evalúa el impacto en las dimensiones globales del dispositivo. Esto es una labor mecánica, aunque se intenta llegar a un buen consenso para que el sensor de cámara no impacte demasiado en el grosor del dispositivo.

Precio:

  • En función del precio que vaya a tener el dispositivo se decide, también, incluir uno u otro sensor.

Pero antes de continuar cabe matizar dos apuntes: la fase de conceptualizado no es impermeable. Aunque el ecosistema de cámara es independiente al tipo de producto, se evalúa «qué estrategia y qué hitos se quieren cumplir en temas de procesado y funcionalidades».

Se trata de una ecuación menos sencilla de lo aparente. A lo que cabe sumar la relación entre hardware y software: a veces un flash muy potente puede iluminar mucho el centro y poco las esquinas, creando una sensación de flash extremo y muy oscuro.

Cada fabricante posee su propia “filosofía de cámara” y defiende unas decisiones que determinan su forma de entender la tecnología. BQ, por ejemplo, se mantiene en los 12MP con el fin de especializarse en cierto segmento. «Esto nos ha permitido construir una gran cantidad de procesados que no hubiesen sido posibles si nuestros sensores fuesen de 20MP. Por eso, evaluamos muy detenidamente aumentar y reducir el número de MP de nuestros dispositivos».

Del diagrama a la versión final

 

Antes de comenzar a desarrollar nada se espera para validar que todas las características del producto se cumplen correctamente. Si no lo hiciesen, después de validar en España los sensores y las lentes, se proponen cambios a nivel de hardware para que en la siguiente fase se cumpla con este requisito.

A esta fase le seguirán otras cuatro:

EVT: pruebas de validación de ingeniería, donde se evalúan las características hardware del dispositivo y se proponen cambios a nivel de diseño hardware. En cuanto al software, en esta fase a plantea el “basic tuning” que es conseguir que el sensor de cámara tenga sus parámetros globales dentro de nuestros requisitos objetivos.

DVT: pruebas de validación de diseño, donde se validan los cambios hardware propuestos. Salvo excepciones, no suelen modificar el hardware más allá de esta fase. En cuanto al software, se corrigen todos los parámetros objetivos de laboratorio y se comienza a desarrollar el fine tuning del ISP. Esta fase, a su vez, puede tener hasta dos iteraciones, según el tipo de producto.

PVT: pruebas de validación de producto. Como su nombre indica, aquí se valida que la producción en masa funciona correctamente con una iteración de unas 1000 unidades fabricadas en serie. Para la PVT, el tuning del ISP debe quedar terminado a falta de pequeños flecos que pueden surgir y corregirse por la actualización del software. También se confirmará la versión inicial de aplicación que llevará el dispositivo.

Ramp + MP: lanzamiento, producción masiva y mantenimiento. Durante este periodo, y toda la vida útil del producto, se trabajan con las actualizaciones para corregir errores y seguir añadiendo nuevas funcionalidades en función del feedback recibido por parte de nuestros usuarios. También se utilizan las OTA’s para optimizar el software.

Unos 1.000 test funcionales de cámara, repetidos a lo largo del desarrollo de producto, acompañan en paralelo a la producción y ensamblaje de la cámara

Cada decisión es resultado de distintas pruebas. Unos 1.000 test funcionales de cámara, repetidos a lo largo del desarrollo de producto, acompañan en paralelo a la producción y ensamblaje de la cámara. «Además, nuestro equipo de QA diseña y automatiza ciertas pruebas de estrés para llevar al dispositivo a condiciones extremas de uso y garantizar su correcto funcionamiento».

Como ya hemos puntualizado en otras ocasiones, cada fabricante utiliza distintos equipos de testing, incluyendo «un equipo de fotógrafos encargados de establecer el criterio fotográfico de cada dispositivo en base a sus características. En calidad de imagen, se suelen disparar y analizar unas 10.000 fotografías por producto. Muchas de ellas se evalúan conjuntamente para tomar decisiones pero durante todo el desarrollo de producto también se están disparando y evaluando fotografías».

El rol de la IA

 

¿Y dónde entra la Inteligencia Artificial en todo este roadmap? La IA persigue la foto perfecta según unos parámetros que determina el propio fabricante. En la actualidad se usa «principalmente para detectar escenas y obtener información contextual de lo que se está disparando», como nos indica el Head of Camera de BQ Carlos Iniesta. «Aunque se puede usar para los procesados: en BQ estimamos que esto forma parte de una segunda fase donde la IA esté más presente».

La primera intención de meter un chip IA, un NPU dedicado que complemente a la GPU es, en esencia, afinar y lograr el mayor nivel de precisión posible a la hora de capturar fotos. Los tres pilares clave son la detección de escenas, el movimiento y la detección de personas.

Del primer factor es necesario contar con un algoritmo de entrenamiento de escenas, de forma que la CPU reconozca qué se está fotografiando y poder ajustar los parámetros de captura. Del movimiento es imprescindible cuantificar el cómo y el cuándo. Si el propio dispositivo se desplaza sobre alguno de sus ejes, la foto tendrá que modificar sus parámetros de captura en consecuencia.

Buscamos saber mejor a quién estamos fotografiando y cuáles son sus características principales: edad, tipo de piel, color de piel

Finalmente, de la detección de personas es parte de nuestro propio feedback como usuarios. Al fin y al cabo, damos mucha importancia a aquellas fotos donde o bien salimos nosotros mismos, o rodeados de amigos y familiares.

BQ traduce esto en un algoritmo dedicado: «buscamos saber mejor a quién estamos fotografiando y cuáles son sus características principales (edad, tipo de piel, color de piel…) para que el dispositivo se ajuste y tome la mejor fotografía posible en cada caso. A partir de aquí, seguiremos trabajando en que la IA mejore otros apartados de nuestro ecosistema como los procesados y predicciones en otros modos».

Y cabe añadir que BQ está dedicando muchos recursos a esta finalidad. De hecho, su plan es retroactivo: en la actualidad están financiando una cátedra en la Carlos III para fomentar las líneas de investigación relacionadas con la Inteligencia Artificial y Aprendizaje Automático en entornos de aplicación real.

Mejorando lo presente

 

Como decíamos al comienzo, el ISP es el responsable de la “calidad” —sin ponernos a debatir como un Le Corbusier enfadado— de nuestra foto. «Cuanta mejor información haya de origen en formato RAW mejor podrá ser el resultado final. Tanto si se usa IA como si no se usa».

Como es evidente que, si nuestra óptica e imagen en origen no cumplen con ciertos parámetros de calidad, la foto no dará la talla. El software realizará unas correcciones de aproximación, pero la magia de esa “foto ideal” sólo puede alcanzarse con un buen material de partida.

El chip ISP no sustituye al chip NPU, sino que trabajan de forma conjunta. Al menos de momento. «El ISP sigue siendo una implementación muy eficiente a la hora de procesar fotografías». Eficiente es la palabra, ya que sin un hardware específico, realizar de operaciones de IA podría devorar el consumo de batería.

Pongamos como ejemplo los niveles de balance de blancos y temperatura. Por cada frame que entra del sistema de cámara (a 30 frames por segundo), se calculan el nivel de luz y la temperatura del color entrante. En base a estos dos parámetros, se aplica un procesado u otro. Se hace en tiempo real, en apenas unos milisegundos.

¿Existe la foto perfecta?

 

Nuestra percepción de lo bello también entra en juego: la IA finalmente determinará cómo son procesadas las fotos, pero la lógica de la IA evoluciona según los propios códigos cognitivos que programan los equipos de ingeniería.

En BQ se programa partiendo de ciertas herramientas básicas. «Para la IA usamos normalmente TensorFlow de Google, aunque el entrenamiento y el desarrollo de cada herramienta se hace internamente». La biblioteca de aprendizaje automático es una de las distintas bases para alimentar la inteligencia de los dispositivos. El propio SO, Android, es otra.

Una medida muy común es la de externalizar algunas facetas del proceso. «Se buscan empresas de imagen especializadas que puedan ayudarnos a mejorar nuestros productos. Hemos trabajado con India, Suecia, Japón, China, Israel, Estados Unidos… procesados clave como la estabilización de vídeo Vidhance o nuestros procesados en baja luz son fruto de estas colaboraciones que tenemos con empresas de imagen».

Más inteligencia, mejor fotografía

 

Entonces, ¿por qué, usando el mismo terminal y cámara, ahora obtenemos mejores fotos desde que Google ha actualizado su app de captura? No todo es cuestión de hardware, por supuesto. La IA sigue en perpetua evolución, sin afectar sustancialmente a los costes.

Como nos indican desde BQ, Google tiene su propio pipeline de procesado de imágenes. «Su software consigue resultados espectaculares ya que la carga de IA que contiene su aplicación es muy grande». Resultados ideales pero nunca optimizados para todo tipo de hardware.

«Este sistema de cámara no es abierto ni se puede utilizar por el fabricante, por lo que lo único que podemos hacer en BQ es garantizar que funciona correctamente en nuestros dispositivos y tenerlo como referencia para seguir mejorando nuestra tecnología día a día».

Hay mucho trabajo del equipo de ingeniería detrás del diseño de la cámara de BQ. Éste ha personalizado la aplicación para facilitar la experiencia de usuario, y también dedica numerosos recursos y cientos de pruebas al sistema de procesado y a incluir mejoras basadas en la IA, además de otras muchas funcionalidades.

Pongamos el ejemplo de WhatsApp: las fotos tomadas con esta app son peores que las tomadas directamente con la app de la cámara. ¿Por qué? Para optimizar recursos, comprimir la calidad y reducir al máximo el peso de los archivos, ya que estamos ante una red social. Si WhatsApp tomase como punto de partida la app de BQ —con el consiguiente mensaje pidiendo permiso para usarla—, el resultado sería notablemente distinto.

En suma, que nuestro smartphone haga fotos alucinantes depende tanto del hardware, el software, como del uso que se le dé con base a los criterios de los propios fabricantes.

Imágenes | BQ, Tensorflow, Qualcomm