El ADN de la IA: De Sanger a DeepSeek y la Revolución de los LLM de Bajo Costo
Esta última semana de enero del 2025 se lanzaron 3 actualizaciones de modelos LLM, primero DeepSeek R1, luego Qwen 2.5 Max y el viernes Chat GPT o3 (mini y mini-hight).
La salida de DeepSeek causó un revuelo tremendo en medios porque el modelo es Chino e causó panico en la bolsa de valores haciedo que NVIDIA cayera un 17% en las acciones y eso arrstro a labaja a indicadores como el NASDAQ. Las perspicacioas hablaron de "guerra fría" de "dominio tecnológico" y otras teorías mucho mas cospiranóicas.
Yo después de dejar pasara unos días y ver como se recuperó el NASDAQ, y
como las conspiraciones son mucho más complicadas de organizar que explicaciones mas plausibles he estado pensando en antecedentes de tecnologías recientes con innovación incremental que pudieran ser equiparables a lo que entiendo que pasa con los LLMs y la más obvia para mi son las tecnologías asociadas a la secuenciación de genomas completos.
En la evolución de los LLM, la historia se puede comparar con la de la secuenciación del ADN, en la que el paso de métodos costosos y lentos (como Sanger, que costó alrededor de 3.000 millones de dólares y llevó más de 13 años para des
cifrar los 3.000 millones de pares de bases) a técnicas de nueva generación (NGS, que pueden “leer” el genoma en horas por menos de 1.000 dólares) ilustra una reducción drástica en los costos y un aumento incremental en la calidad. De forma similar, en el campo de los modelos de lenguaje se observa que, en sus primeras generaciones, entrenar un modelo como GPT‑2 (unos 1,5 B parámetros) podía costar decenas de miles de dólares permitiendo que lo que antes era inaccesible se vuelva rutinario,
Sin embargo, contrastemos ese escenario con el del modelo chino DeepSeek R1, cuyo entrenamiento se ha logrado con cerca de 5,57 millones de dólares, usando GPUs de una generación anterior (las H800 en vez de las H100 más costosas). Este costo, que representa menos de una décima parte de lo invertido en GPT‑4, es un ejemplo claro de cómo las mejoras en técnicas (por ejemplo, la destilación del conocimiento entre modelos y el uso de métodos de aprendizaje reforzado en lugar de supervisado a gran escala) han permitido bajar los gastos sin sacrificar la calidad. Benchmarks específicos muestran que DeepSeek R1 alcanza un 97% de precisión en la resolución de problemas matemáticos y supera al 96% de los humanos en pruebas de programación, lo que lo sitúa en un nivel competitivo frente a los modelos más costosos de Silicon Valley.
Además, al igual que en secuenciación se han logrado avances medibles en la calidad (la reducción de la “pérdida” en términos de error de predicción sigue leyes de escalamiento como la “Chinchilla scaling”), en los LLM se observa que a medida que se incrementa el número de parámetros y la cantidad de datos de entrenamiento, la calidad mejora de forma predecible. Modelos superiores a 62 B parámetros, por ejemplo, empiezan a mostrar habilidades emergentes como el chain-of-thought, algo que no se veía en modelos más pequeños.
En resumen, al igual que la tecnología NGS transformó la genómica al reducir el costo y aumentar la velocidad –pasando de inversiones de miles de millones y tiempos prolongados a secuencias rápidas y económicas– los avances en los LLM han permitido que, a pesar de que entrenar modelos punteros como GPT‑4 siga siendo muy caro, innovaciones como las de DeepSeek R1 logren resultados comparables con una inversión significativamente menor. Esto se traduce en que los costos de inferencia también han disminuido drásticamente (por ejemplo, el precio por millón de tokens ha caído de decenas de dólares hace unos años a unos pocos centavos hoy), haciendo que la adopción de soluciones de IA sea cada vez más accesible y permitiendo mejoras incrementales, medibles en benchmarks relevantes de razonamiento, precisión y generación de contenido.
Esta transformación –de métodos “a la antigua” costosos a tecnologías eficientes y de bajo costo– es lo que impulsa la llamada “carrera armamentista” actual en IA, en la que cada avance incremental se traduce en modelos que, además de ser más potentes, son mucho más económicos de entrenar e implementar, democratizando el acceso a tecnologías que antes estaban reservadas a las grandes corporaciones.
Comentarios
Publicar un comentario