Por qué el modelo de IA de DeepSeek se convirtió en la aplicación mejor valorada en EE.UU.

DeepSeek sorprende al mundo con su modelo de IA eficiente y de bajo costo


"Hemos visto que el éxito de las grandes empresas de tecnología en IA se medía por cuánto dinero recaudaban, no necesariamente por lo que la tecnología realmente era. Ahora, prestaremos más atención a la tecnología detrás de estos productos"


Por: José Daniel Figuera

DeepSeek, una start-up china, ha revolucionado la industria tecnológica con su nuevo modelo de inteligencia artificial, DeepSeek-R1, que rivaliza con los sistemas más avanzados de OpenAI, pero con un costo significativamente menor. Este modelo, que se ha convertido en la aplicación mejor valorada en la App Store de Apple, ha sorprendido a los mercados financieros y ha puesto en evidencia que la innovación en IA no siempre requiere inversiones multimillonarias.


"DeepSeek-R1 es un ejemplo de cómo la eficiencia y la innovación pueden democratizar el acceso a la inteligencia artificial, permitiendo que más empresas y académicos aprovechen esta tecnología sin incurrir en costos prohibitivos", afirma Ashlesha Nesarikar, CEO de Plano Intelligence.

Un modelo eficiente y de bajo costo

DeepSeek-R1 fue desarrollado utilizando chips Nvidia H800, de menor capacidad, en lugar de los avanzados A100, lo que redujo significativamente los costos de entrenamiento. "El modelo se entrenó por menos de $6 millones, en comparación con los más de $100 millones que costó GPT-4 de OpenAI", explica Hancheng Cao, profesor de sistemas de información en la Universidad Emory. Esta eficiencia no solo reduce costos, sino que también minimiza el impacto ambiental de la IA.

Innovaciones técnicas clave

DeepSeek-R1 utiliza una arquitectura llamada "mezcla de expertos", que activa solo una fracción relevante de sus 670 mil millones de parámetros para cada consulta, reduciendo el consumo de energía. Además, emplea un método de atención latente multicabezal para mejorar la eficiencia de sus inferencias. "Estas innovaciones permiten que el modelo genere respuestas más rápidas y precisas, con un costo operativo diez veces menor que el de sus competidores", destaca Anil Ananthaswamy, autor de "Why Machines Learn".

Impacto en la investigación y la industria

Al hacer que el código de DeepSeek-R1 sea de código abierto, la empresa ha permitido que académicos y desarrolladores verifiquen y mejoren el modelo. "Esto democratiza el acceso a la IA y abre nuevas oportunidades para la investigación en modelos de lenguaje grandes", señala Ananthaswamy. Además, el modelo utiliza un sistema de aprendizaje reforzado interno, eliminando la necesidad de un "crítico" externo, lo que simplifica el proceso de entrenamiento.

Hallazgos clave de DeepSeek-R1

El modelo ha demostrado resultados impresionantes:

  • Eficiencia energética: Reduce el costo computacional y el impacto ambiental.
  • Precisión comparable: Iguala el rendimiento de modelos como GPT-4 en pruebas de matemáticas y codificación.
  • Acceso abierto: El código abierto permite la verificación y mejora por parte de la comunidad científica.
  • Este avance no solo desafía a los gigantes tecnológicos, sino que también democratiza el acceso a la IA, permitiendo que más personas y organizaciones aprovechen sus beneficios. ¿Estamos presenciando el inicio de una nueva era en la inteligencia artificial?

    Artículo Anterior Artículo Siguiente