La asequibilidad de Deepseek es un mito: la IA revolucionaria en realidad costó $ 1.6 mil millones para desarrollarse
El modelo de IA sorprendentemente económico de Deepseek desafía a los gigantes de la industria. La startup china afirma haber capacitado a su poderosa red neuronal de Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, significativamente socavando competidores. Sin embargo, esta figura es engañosa.
Imagen: Ensigame.com
Deepseek V3 aprovecha tecnologías innovadoras: Predicción de múltiples token (MTP) para mejorar la precisión y eficiencia; Mezcla de expertos (MOE) , empleando 256 redes neuronales, para acelerar la capacitación; y Atención latente de múltiples cabezas (MLA) para centrarse en elementos de oración cruciales.
Imagen: Ensigame.com
La realidad, descubierta por el semianálisis, revela una inversión mucho más sustancial. Deepseek opera una infraestructura masiva de aproximadamente 50,000 GPU NVIDIA, valoradas en aproximadamente $ 1.6 mil millones, con costos operativos anuales que se acercan a $ 944 millones. Esto incluye salarios sustanciales, y algunos investigadores ganan más de $ 1.3 millones anuales. Sin embargo, la naturaleza autofinanciada de la compañía permite la innovación ágil.
Imagen: Ensigame.com
Si bien el costo previo a la capacitación de $ 6 millones de Deepseek es una fracción de los gastos de la competencia (por ejemplo, los $ 100 millones de ChatGPT-4), la inversión general supera los $ 500 millones. El éxito de la compañía proviene de fondos sustanciales, avances tecnológicos y un equipo altamente calificado, en lugar de un enfoque revolucionario de reducción de costos. A pesar de esto, sus costos operativos aún socavaron significativamente los de sus rivales.
Imagen: Ensigame.com
El ejemplo de Deepseek destaca el potencial de una compañía de IA independiente bien financiada para competir de manera efectiva. Sin embargo, la narración de costos de desarrollo excepcionalmente bajos requiere un escrutinio cuidadoso.
Últimos artículos