Se trata de un LLM que ahorra millones de dólares tanto en el entrenamiento como en cómputo.

DeepSeek: la IA que destrona a Chat GPT y modifica la tecnología

Editó: Ana Montes de OcaLunes27 Ene 2025

Una nueva startup china de la industria de la inteligencia artificial (IA), está redefiniendo el desarrollo de modelos de IA con una estrategia innovadora que desafía a gigantes como OpenAI y Anthropic. Su reciente lanzamiento, DeepSeek-V3, ha demostrado ser capaz de igualar e incluso superar las capacidades de los modelos tradicionales, pero con un costo significativamente menor.

Mientras que entrenar modelos de IA como GPT-4 requiere inversiones superiores a los 100 millones de dólares y el uso de miles de GPU de alta gama, DeepSeek ha logrado reducir drásticamente estos costos. Según la compañía, entrenaron su modelo insignia con solo 6 millones de dólares, utilizando chips Nvidia H800, diseñados como una alternativa limitada por las sanciones impuestas por Estados Unidos a China.

Podés leer: El plan nuclear de Milei

Jensen Huang, CEO de Nvidia presentó hace días la supercomputadora personal

Uno de los aspectos clave de su tecnología es la optimización de los parámetros de los modelos. DeepSeek utiliza solo 37 mil millones de parámetros activos simultáneamente dentro de un sistema total de 671 mil millones. Esta estrategia permite que los modelos operen con menor uso de hardware, lo que abre la posibilidad de correrlos en GPU convencionales, como las de videojuegos, reduciendo la dependencia de costosos centros de datos.

DeepSeek ha implementado un sistema "multi-token" que optimiza el procesamiento de información, permitiendo analizar frases completas en lugar de palabra por palabra. Aunque esto podría implicar una menor precisión en algunos contextos, mejora significativamente la velocidad y la eficiencia operativa.

Otra innovación es la reducción de la precisión numérica de los cálculos, pasando de 32 bits a 8 bits, lo que ha permitido reducir drásticamente el uso de memoria sin comprometer la calidad de los resultados. Además, la empresa ha optado por un modelo de "expertos" que se activan según sea necesario, mejorando la eficiencia y reduciendo el consumo de recursos.

Impacto global y reacción de los mercados

El lanzamiento del modelo DeepSeek R1 en enero de 2025 tuvo repercusiones inmediatas en los mercados tecnológicos. Empresas como Nvidia y Oracle vieron caer sus acciones en un 10% y 8% respectivamente, mientras que SoftBank, inversor clave en startups de IA, reportó una pérdida del 8%. El Nasdaq 100 registró una baja del 4%, su mayor caída desde 2022.

Figuras influyentes como Marc Andreessen han comparado el desarrollo de DeepSeek con el "momento Sputnik", destacando el avance tecnológico de China como un punto de inflexión en la carrera global por la inteligencia artificial.

El modelo de DeepSeek representa un desafío significativo para las grandes corporaciones tecnológicas de Occidente, obligándolas a reconsiderar sus estrategias de inversión y eficiencia de costos. Empresas como OpenAI y Anthropic, que dependen de enormes infraestructuras y altos presupuestos, podrían verse forzadas a adoptar métodos más eficientes para seguir siendo competitivas.

El meme que muestra la revolución de DeepSeek

Te puede interesar: "Me gustó la entrevista, voy a invertir 500 millones de dólares en Argentina"

Esta nota habla de:

¿Por qué no hay comentarios en Mendoza Post?

Se trata de un LLM que ahorra millones de dólares tanto en el entrenamiento como en cómputo.

DeepSeek: la IA que destrona a Chat GPT y modifica la tecnología

Las drogas indias facturan más que las argentinas en las farmacias locales

Esta nota habla de:

Denuncia contra un abogado abre un nuevo frente en el caso Fecovita

Avanza el nuevo puente que conectará Maipú, Lavalle y San Martín

La economía creció pero el comercio, la industria y los restaurantes cayeron

No para de subir: volvió a aumentar el combustible en Mendoza