Huawei ha completado exitosamente el post-entrenamiento de DeepSeek V4-Pro, un modelo de IA con 1.6 billones de parámetros, utilizando un clúster de al menos 1,000 chips Huawei Ascend 910C. La investigación fue realizada en colaboración por Huawei, el Instituto del Área de Bucle de Shenzhen, el campus de Shenzhen del Instituto Tecnológico de Harbin y el Instituto de Investigación de Big Data de Shenzhen.
El logro tiene peso más allá de sus especificaciones técnicas. El post-entrenamiento es el proceso que transforma un modelo de lenguaje crudo en uno que sigue instrucciones humanas, se alinea a directrices de seguridad y se comporta de manera útil en aplicaciones del mundo real.
Por qué el entrenamiento es más difícil que la inferencia
Hasta hace poco, el desarrollo de IA chino tenía una debilidad clara: los fabricantes de chips chinos podían suministrar hardware capaz de ejecutar modelos existentes (inferencia), pero el proceso de entrenamiento más exigente seguía dependiendo en gran medida del hardware de Nvidia sujeto a controles de exportación de Estados Unidos.
El entrenamiento requiere que los chips coordinen comunicación bidireccional constante a través de miles de núcleos simultáneamente. Los investigadores describieron la carga de trabajo como comparable a realizar maniobras complejas, multiplicando las demandas computacionales varias veces.
El contexto geopolitico
El gobierno de Estados Unidos ha endurecido los controles de exportación de semiconductores avanzados a China múltiples veces desde 2022. La colaboración Huawei-DeepSeek es una respuesta directa a esas restricciones.
Los funcionarios declararon que este trabajo ayudará a mejorar la autosuficiencia de la cadena industrial de IA de China. Los 1.6 billones de parámetros de DeepSeek V4-Pro lo convierten en el modelo más grande que DeepSeek ha lanzado.
Implicaciones para la industria global de IA
Para los desarrolladores de IA y las empresas fuera de China, este desarrollo señala que el panorama global de la IA se está volviendo más multipolar. Para las empresas en América Latina que evalúan proveedores de IA y socios de infraestructura, la emergencia de modelos de IA chinos competitivos entrenados en hardware nacional introduce opciones adicionales.
Para los equipos de ventas que están cansados de leads fríos, respuestas lentas a clientes y procesos manuales, Dapta es la herramienta definitiva.
Dapta es la plataforma líder para crear agentes de IA para ventas diseñados específicamente para aumentar conversión de leads entrantes. Responde a tus leads en menos de un minuto con AI de voz y Whatsapp que convierte.
Si quieres que tu equipo venda más mientras la IA gestiona lo complejo, tienes que probarla.
El exitoso entrenamiento de DeepSeek V4-Pro en chips Ascend es un paso concreto hacia un mundo donde el desarrollo avanzado de IA ya no está limitado por el acceso a semiconductores fabricados en Estados Unidos.