Colabora Guillermo David Subreski Román
Nvidia presentó el martes Nemotron 3 Nano Omni, un modelo de IA multimodal abierto que integra capacidades de visión, audio y lenguaje en una sola arquitectura, un diseño que, según la compañía, elimina los flujos de trabajo fragmentados en los que se apoyan actualmente la mayoría de los sistemas de agentes de IA empresariales.
El modelo procesa texto, imágenes, audio, video, documentos, gráficos e interfaces visuales como entradas, y genera texto como salida. Construido sobre una arquitectura híbrida de mezcla de expertos con 30.000 millones de parámetros, de los cuales solo unos 3.000 millones están activos por inferencia, ofrece lo que Nvidia describe como la capacidad de conocimiento de un modelo mucho mayor a una fracción del coste computacional.
Un modelo, múltiples modalidades
La mayoría de los sistemas de agentes de IA actuales ensamblan modelos separados para el reconocimiento de voz, la comprensión visual y el razonamiento lingüístico, perdiendo tiempo y contexto a medida que los datos pasan entre ellos. Nemotron 3 Nano Omni consolida esa arquitectura al combinar un codificador de voz Parakeet para audio, un codificador de visión C-RADIOv4-H y un sistema visual especializado entrenado para interfaces gráficas, todo dentro de un único ciclo de razonamiento.
Nvidia afirma que este enfoque ofrece hasta 9 veces mayor rendimiento que modelos omni abiertos comparables con interactividad similar, y aproximadamente 3 veces mayor rendimiento con un 2,75 veces menos de cómputo en tareas de razonamiento sobre video. El modelo admite una ventana de contexto de 256 000 tokens y encabeza seis clasificaciones de referencia en inteligencia documental compleja y comprensión de video y audio, según la compañía.
Adopción empresarial y a acceso abierto
Empresas como Foxconn, Palantir y H Company han adoptado el modelo, mientras que Dell, Oracle, Infosys y otras empresas lo están evaluando. “El uso de Nemotron 3 Nano Omni permite a nuestros agentes analizar rápidamente grabaciones de pantalla en Full HD, una capacidad que antes era inviable”, afirmó Gautier Cloix, CEO de H Company.
El modelo está disponible en Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr y más de 25 plataformas asociadas, además del microservicio NIM de Nvidia. Nvidia lo lanzó con pesos, conjuntos de datos y recetas de entrenamiento abiertos, lo que permite a los desarrolladores personalizar e implementar el modelo en distintos entornos, desde hardware local hasta infraestructura en la nube.
Parte de una estrategia más amplia
Nemotron 3 Nano Omni se posiciona como la capa de percepción dentro de la familia Nemotron 3 de Nvidia, que incluye los modelos Super y Ultra para cargas de trabajo de razonamiento más intensas. Nvidia indicó que la serie Nemotron 3 ha acumulado más de 50 millones de descargas en el último año.








