Correr un LLM local en Apple Silicon puede costar más que usar la nube

Uno de los argumentos más repetidos para correr modelos de lenguaje en local es el ahorro económico: “pagas una vez el hardware y no tienes facturas de API”. Un análisis publicado esta semana por William Angel pone esa lógica a prueba con números concretos, y el resultado no es el esperado.

El experimento

Angel midió el consumo eléctrico real de varias tareas de inferencia en un equipo Apple Silicon —la misma familia de chips M-series que usan MacBooks y Mac Mini— y lo convirtió en costo en dólares usando tarifas eléctricas residenciales típicas de EE. UU. Luego comparó ese gasto contra el precio por token de modelos equivalentes disponibles en OpenRouter.

La conclusión: para cargas de trabajo moderadas a intensivas, el costo energético del hardware local supera lo que cobrarían los proveedores cloud por la misma inferencia.

Por qué el consumo importa más de lo que parece

Apple Silicon es eficiente comparado con una GPU NVIDIA de escritorio. Pero “eficiente” es relativo. Un M2 Max bajo carga sostenida puede consumir entre 40 y 60 W. Si se corre inferencia durante horas al día —casos de uso como asistentes de código, procesamiento de documentos, pipelines de RAG— esos vatios se acumulan.

El problema estructural: la electricidad residencial no tiene economías de escala. Un datacenter de OpenRouter o Anthropic paga fracciones de centavo por kWh gracias a contratos industriales. El usuario doméstico o la PyME con su Mac Mini paga tarifa full.

El costo que nadie contabiliza

Más allá de la energía, el análisis toca un punto que muchas empresas ignoran al evaluar IA local:

Costo de oportunidad del hardware: un Mac Studio M3 Ultra cuesta entre $3,000 y $5,000. Ese capital inmovilizado tiene un costo financiero.
Tiempo de mantenimiento: actualizar modelos, gestionar memoria, resolver conflictos de dependencias. Todo eso es tiempo de alguien.
Latencia de actualización: los modelos cloud se actualizan sin fricción. Los locales requieren descarga y pruebas manuales.

Ninguno de estos costos aparece en la factura eléctrica, pero son reales.

Cuándo sí tiene sentido lo local

Esto no significa que los LLMs locales sean una mala idea en todos los casos. Hay escenarios donde siguen ganando:

Privacidad estricta: datos que no pueden salir de la organización bajo ninguna circunstancia (sector salud, legal, financiero).
Sin conectividad: entornos industriales o rurales con internet limitado.
Volumen extremo con modelos pequeños: si el modelo cabe en 4-8 GB y corre miles de solicitudes diarias, el math puede invertirse.
Desarrollo y pruebas offline: iterar sin depender de cuotas o latencia de red.

Qué debería hacer una PyME ecuatoriana ahora

Antes de comprar hardware “para IA”, haz el ejercicio inverso: estima cuántos tokens al mes realmente necesitas, multiplica por el precio de OpenRouter o AWS Bedrock, y compara contra el costo del equipo amortizado en 3 años más la factura eléctrica incremental.

En Ecuador, donde la tarifa eléctrica residencial ronda los $0.09–$0.10/kWh, el cálculo puede ser algo más favorable que en EE. UU. Pero la diferencia no es suficiente para ignorar el análisis. La nube gana en flexibilidad; lo local gana en privacidad. Elige según tu restricción real, no según el marketing de “soberanía de datos”.

Fuente: William Angel — Offline LLM Energy Use

El experimento

Por qué el consumo importa más de lo que parece

El costo que nadie contabiliza

Cuándo sí tiene sentido lo local

Qué debería hacer una PyME ecuatoriana ahora

¿Listo para liberar tu equipo de la gestión IT?