Cómo Funciona Un Chip De IA: De La Lógica A La Matriz

Cover

📺 Vídeo de estudio recomendado hoy: https://www.youtube.com/watch?v=oIk3R-sMX5o

Anatomía de un Chip de IA: De Puertas Lógicas a Arreglos Sistólicos

¿Qué ocurre realmente dentro de los transistores cuando ejecutas un modelo de lenguaje? No es magia, es una coreografía masiva de multiplicaciones y sumas optimizada al nanómetro para vencer al enemigo número uno del silicio: el movimiento de datos.

Pregunta central: ¿Cómo se diseñan los chips de IA para maximizar el cómputo mientras se minimiza el asfixiante coste energético y de área de la comunicación interna?

Puntos clave

El “multiply-accumulate” (MAC) es la unidad atómica fundamental de la IA.
El área del silicio escala de forma cuadrática con la precisión de los bits.
Los arreglos sistólicos reducen drásticamente el tráfico hacia los registros.
El determinismo de la latencia diferencia radicalmente a los aceleradores de IA de las CPUs.

⏱️ Tiempo de lectura: aprox. 10 minutos · Te ahorra unos 70 minutos frente a ver el vídeo.

¿Quieres tomar notas mientras ves el vídeo? Haz clic en la imagen de abajo y deja que AI Notebook extraiga los puntos clave por ti 👇

El Corazón del Cómputo: Puertas y Matrices

La lógica del “Multiply-Accumulate”

La computación de IA se reduce a una sola operación: multiplicar y sumar.

En el nivel más bajo, los diseñadores de chips trabajan con puertas lógicas simples como AND, OR y NOT, conectadas por trazas metálicas físicas. Sin embargo, el verdadero motor de los modelos modernos es el “multiply-accumulate” (MAC), una unidad que combina una multiplicación de baja precisión con una suma de alta precisión para evitar errores de redondeo acumulativos durante el proceso.

El diseño de estos circuitos revela una ventaja matemática crucial para la industria: el área ocupada por el multiplicador escala de forma cuadrática con la longitud del bit. Esto explica por qué el paso de FP8 a FP4 no solo duplica el rendimiento, sino que puede llegar a triplicarlo o cuadruplicarlo en términos de eficiencia de área de silicio. Nvidia y otros fabricantes han capitalizado esta propiedad para empaquetar una potencia de cálculo masiva en el mismo espacio físico del chip, permitiendo que los modelos de lenguaje crezcan exponencialmente sin que el hardware se vuelva prohibitivamente grande.

Functional diagram of a 4-bit multiply-accumulate unit showing 16 AND gates generating partial products that feed into a Dadda tree of full adders for high-precision accumulation

💡 Profundizando

Q: ¿Por qué la acumulación requiere más bits que la multiplicación?
A: Porque sumamos miles de valores en un bucle; si no tuviéramos mayor precisión en la suma, los errores de redondeo se acumularían hasta corromper los pesos del modelo.

Q: ¿Qué es un compresor 3:2 en este contexto?
A: Es un sumador completo que toma tres bits de entrada y genera dos de salida (suma y acarreo), permitiendo reducir columnas de números de forma eficiente en el silicio.

El Impuesto del Movimiento: Registros y Muxes

El problema del “overhead” de datos

Mover un bit suele costar más energía y área que procesarlo.

Antes de la llegada de los Tensor Cores, las GPUs funcionaban como CPUs tradicionales: leían datos de un archivo de registros, realizaban la operación y escribían de vuelta. Este proceso requiere “muxes” (multiplexores), circuitos que seleccionan qué dato leer. Sorprendentemente, el coste de estos muxes escala con el tamaño del archivo de registros, llegando a ocupar hasta siete octavos del área total del circuito, dejando solo una pequeña fracción para el cálculo real.

Para solucionar este desequilibrio, la industria adoptó los arreglos sistólicos, que cambian la jerarquía del movimiento de datos. En lugar de pedir datos constantemente a la memoria central, estos arreglos “congelan” la matriz de pesos dentro de registros locales. Los datos de entrada fluyen a través de esta estructura fija, permitiendo que cada bit se reutilice en múltiples operaciones antes de ser devuelto a la memoria, lo que inclina la balanza de nuevo hacia el cómputo eficiente.

Architecture diagram of a 2x2 systolic array where weights are stored in local registers and input vectors flow horizontally through multipliers, while partial sums accumulate vertically

💡 Profundizando

Q: ¿Qué motivó la creación de los Tensor Cores en Nvidia?
A: La necesidad de reducir el coste masivo de mover datos entre el archivo de registros y la unidad lógica (ALU) en cada operación individual.

Q: ¿Cómo se cargan los pesos en un arreglo sistólico sin saturar el ancho de banda?
A: Se utiliza una estrategia de “goteo lento” (daisy chain) donde los pesos se desplazan paso a paso por el arreglo durante varios ciclos de reloj.

La Arquitectura del Tiempo: Relojes y FPGAs

Sincronización y determinismo

Un chip moderno es una orquesta masiva de 100.000 millones de transistores en perfecta sincronía.

El ciclo de reloj es el pulso que permite que todas las unidades del chip se sincronicen cada nanosegundo. Sin este control, las variaciones en la velocidad de los electrones harían que los resultados de diferentes partes del chip llegaran a destiempo, corrompiendo la lógica. Los diseñadores insertan “registros de tubería” (pipeline registers) para dividir nubes lógicas grandes en pasos más pequeños, lo que permite aumentar la frecuencia del reloj, aunque a costa de ocupar más espacio en el silicio.

A diferencia de las CPUs, que utilizan predictores de salto complejos para lidiar con la incertidumbre del código, los chips de IA y las FPGAs (Field-Programmable Gate Arrays) buscan el determinismo. En una FPGA, el usuario programa la lógica usando tablas de búsqueda (LUTs), que son esencialmente memorias que emulan cualquier puerta lógica. Aunque esto las hace un orden de magnitud más caras y lentas que un ASIC (un chip diseñado a medida), ofrecen una flexibilidad inigualable para cargas de trabajo que cambian cada mes.

Flowchart showing a logic path divided by pipeline registers to illustrate the trade-off between clock frequency (latency) and total chip throughput

💡 Profundizando

Q: ¿Por qué las CPUs no son deterministas en su tiempo de ejecución?
A: Principalmente por el uso de memorias caché y predictores de salto, que hacen que el tiempo de respuesta dependa de qué otros programas se estén ejecutando.

Q: ¿Qué es una LUT en una FPGA?
A: Es una “Lookup Table” de 4 entradas que funciona como una tabla de verdad programable, permitiendo implementar cualquier función lógica mediante configuración de software.

Conclusiones Clave

El diseño de chips de IA es una batalla constante contra la física y la economía de escala. La transición hacia precisiones más bajas como FP4 no es solo una moda de software, sino una necesidad impuesta por el escalado cuadrático de los multiplicadores en el silicio. Al reducir los bits, ganamos un área preciosa que permite insertar más unidades de cómputo en el mismo chip.

La verdadera innovación reside en cómo hemos pasado de procesadores de propósito general a arquitecturas sistólicas que priorizan el flujo de datos. Al amortizar el coste de comunicación sobre una cuadrícula masiva de multiplicadores, hemos logrado que el silicio sea órdenes de magnitud más eficiente para el entrenamiento de redes neuronales de lo que jamás podría ser una CPU tradicional.

Preguntas y Respuestas

Q1: ¿Por qué el área de un multiplicador escala cuadráticamente?
A: Porque para multiplicar dos números de $N$ bits, debes generar $N times N$ productos parciales. Si doblas los bits, cuadruplicas el trabajo y el número de puertas AND necesarias.

Q2: ¿Cuál es la diferencia fundamental entre una caché y un “scratchpad”?
A: Una caché es gestionada automáticamente por el hardware (no determinista), mientras que un scratchpad (común en TPUs) es gestionado directamente por el software, garantizando que el programador sepa exactamente cuándo se mueve cada dato.

Q3: ¿Por qué las FPGAs son populares en el trading de alta frecuencia si son más lentas que los ASICs?
A: Porque permiten latencias extremadamente bajas y deterministas sin el coste de 30 millones de dólares y los meses de espera que requiere fabricar un ASIC a medida cada vez que cambia un algoritmo.

Q4: ¿Qué es el “branch predictor” en una CPU y por qué las GPUs lo evitan?
A: Es un circuito que intenta adivinar hacia dónde irá un código (un IF/ELSE) antes de ejecutarlo. Las GPUs lo evitan porque las tareas de IA son predecibles y masivamente paralelas, permitiendo usar ese espacio para más núcleos de cómputo.

Q5: ¿Cómo afecta el voltaje a la eficiencia energética del chip?
A: La mayor parte de la energía se consume al cambiar los bits de 0 a 1 (carga de capacitancia). Un reloj más rápido requiere voltajes más altos para asegurar que el bit se estabilice a tiempo, lo que dispara el consumo de calor de forma no lineal.

Q6: ¿Qué significa que una unidad sistólica sea “splittable”?
A: Es un diseño avanzado que permite que un arreglo de matrices grande se divida lógicamente en varios más pequeños, ofreciendo flexibilidad para diferentes tamaños de modelos sin perder eficiencia.

TeraBox Blog | 1TB Free Cloud Storage & All-in-One AI Space

Cómo funciona un chip de IA: De la lógica a la matriz

Anatomía de un Chip de IA: De Puertas Lógicas a Arreglos Sistólicos