El último modelo de NVIDIA Research, con GAN bajo el capó, convierte imágenes 2D en objetos 3D para desarrolladores de juegos, artistas, diseñadores y arquitectos.
Editorial por: Isha Salian.
Abróchense los cinturones de seguridad. NVIDIA Research está acelerando un nuevo motor de aprendizaje profundo que crea modelos de objetos 3D a partir de imágenes 2D estándar, y puede dar vida a autos icónicos como el KITT (el auto increíble) impulsado por IA de Knight Rider, en NVIDIA Omniverse. Desarrollada por el Laboratorio de Investigación de IA de NVIDIA en Toronto, la aplicación GANverse3D infla imágenes planas en modelos 3D realistas que se pueden visualizar y controlar en entornos virtuales.
Esta capacidad podría ayudar a los arquitectos, creadores, desarrolladores de juegos y diseñadores a agregar fácilmente nuevos objetos a sus maquetas sin necesidad de tener experiencia en modelado 3D o un gran presupuesto para gastar en representaciones. Una sola foto de un automóvil, por ejemplo, podría convertirse en un modelo 3D que puede conducir alrededor de una escena virtual, con faros, luces traseras y luces intermitentes realistas.
Para generar un conjunto de datos para el entrenamiento, los investigadores aprovecharon una Red Generativa de Adversarial, (GAN), para sintetizar imágenes que representan el mismo objeto desde múltiples puntos de vista, como un fotógrafo que camina alrededor de un vehículo estacionado, tomando fotos desde diferentes ángulos. Estas imágenes de múltiples vistas se conectaron a un marco de renderizado para gráficos inversos, el proceso de inferir modelos de malla 3D a partir de imágenes 2D.
Una vez entrenado en imágenes de múltiples vistas, GANverse3D solo necesita una única imagen 2D para predecir un modelo de malla 3D. Este modelo se puede usar con un renderizador neuronal 3D que brinda a los desarrolladores control para personalizar objetos e intercambiar fondos.
Cuando se importa como una extensión en la plataforma NVIDIA Omniverse y se ejecuta en GPU NVIDIA RTX, GANverse3D se puede usar para recrear cualquier imagen de 2D en 3D, como el amado auto KITT, del popular programa de televisión Knight Rider de los años 80s.
Los modelos anteriores de gráficos inversos se han basado en formas 3D como datos de entrenamiento.
En cambio, sin la ayuda de los activos 3D, «convertimos un modelo GAN en un generador de datos muy eficiente de manera que podamos crear objetos 3D a partir de cualquier imagen 2D en la web», dijo Wenzheng Chen, científico investigador de NVIDIA y autor principal del proyecto.
«Debido a que entrenamos con imágenes reales en lugar de la canalización típica, que se basa en datos sintéticos, el modelo de IA se generaliza mejor a las aplicaciones del mundo real», dijo el investigador de NVIDIA Jun Gao, autor del proyecto. La investigación detrás de GANverse3D se presentará en dos próximas conferencias: la Conferencia Internacional sobre Representaciones del Aprendizaje en mayo, y la Conferencia sobre Visión por Computador y Reconocimiento de Patrones, en junio.
Desde pinchazo hasta Racing KITT.
Los creadores de juegos, arquitectura y diseño confían en entornos virtuales como la plataforma de colaboración y simulación NVIDIA Omniverse para probar nuevas ideas y visualizar prototipos antes de crear sus productos finales. Con Omniverse Connectors, los desarrolladores pueden usar sus aplicaciones 3D preferidas en Omniverse para simular mundos virtuales complejos con trazado de rayos en tiempo real.
Pero no todos los creadores tienen el tiempo y los recursos para crear modelos 3D de cada objeto que dibujan. El costo de capturar la cantidad de imágenes de múltiples vistas necesarias para representar el valor de los autos de una sala de exhibición, o el valor de los edificios de una calle, puede ser prohibitivo.
Ahí es donde se puede usar una aplicación GANverse3D entrenada para convertir imágenes estándar de un automóvil, un edificio o incluso un caballo en una figura de 3D que se puede personalizar y animar en Omniverse.
Para recrear KITT, los investigadores simplemente alimentaron al modelo entrenado con una imagen del automóvil, permitiendo que GANverse3D prediga una malla texturizada 3D correspondiente, así como diferentes partes del vehículo, como ruedas y faros. Luego utilizaron NVIDIA Omniverse Kit y las herramientas NVIDIA PhysX para convertir la textura predicha en materiales de alta calidad que le dan a KITT una apariencia y sensación más realistas, y lo colocaron en una secuencia de conducción dinámica junto con otros autos.
«Omniverse permite a los investigadores llevar una investigación emocionante y de vanguardia directamente a los creadores y usuarios finales», dijo Jean-Francois Lafleche, Ingeniero de Aprendizaje Profundo de NVIDIA. «Ofrecer GANverse3D como una extensión en Omniverse ayudará a los artistas a crear mundos virtuales más ricos para el desarrollo de juegos, la planificación urbana o incluso la formación de nuevos modelos de aprendizaje automático».
Las GAN impulsan un cambio dimensional debido a que los conjuntos de datos del mundo real que capturan el mismo objeto desde diferentes ángulos son raros, la mayoría de las herramientas de IA que convierten imágenes de 2D a 3D se entrenan utilizando conjuntos de datos sintéticos en 3D como ShapeNet.
Para obtener imágenes de múltiples vistas a partir de datos del mundo real, como imágenes de automóviles disponibles públicamente en la web, los investigadores de NVIDIA recurrieron a un modelo GAN, manipulando sus capas de red neuronal para convertirlo en un generador de datos.
El equipo descubrió que la apertura de las primeras cuatro capas de la red neuronal y la congelación de las 12 restantes provocó que la GAN renderizara imágenes del mismo objeto desde diferentes puntos de vista.
Mantener las primeras cuatro capas congeladas y las otras 12 capas variables hizo que la red neuronal generara diferentes imágenes desde el mismo punto de vista. Al asignar manualmente puntos de vista estándar, con los vehículos representados a una altura y una distancia de cámara específicas, los investigadores pudieron generar rápidamente un conjunto de datos de múltiples vistas a partir de imágenes 2D individuales.
El modelo final, entrenado en 55,000 imágenes de automóviles generadas por la GAN, superó a una red de gráficos inversos entrenada en el popular conjunto de datos Pascal3D.
Se recomienda leer el artículo completo de ICLR, escrito por Wenzheng Chen, los compañeros investigadores de NVIDIA Jun Gao y Huan Ling, Sanja Fidler, Directora del Laboratorio de Investigación de NVIDIA en Toronto, el estudiante de la Universidad de Waterloo Yuxuan Zhang, el estudiante de Stanford Yinan Zhang y el profesor del MIT Antonio Torralba. Otros colaboradores en el documento CVPR incluyen a Jean-Francois Lafleche, el investigador de NVIDIA Kangxue Yin y Adela Barriuso.
El equipo de investigación de NVIDIA está formado por más de 200 científicos de todo el mundo, y se centra en áreas como la inteligencia artificial, la visión por computadora, los vehículos autónomos, la robótica y los gráficos.
Knight Rider 1982 Universal Television Enterprises, Inc. Courtesy of Universal Studios Licensing LLC.