
Una preocupación que existe en la actualidad es cómo usan las empresas los datos al usar uno de sus servicios de inteligencia artificial, y una de las soluciones es ejecutar los modelos en nuestro entorno local. El 2 de abril de 2026, Google ha liberado su modelo Gemma4 de IA local, el cual ha traído un par de sorpresas si es que tú estás usando inteligencia en tu entorno local.
En este articulo veremos esta opción para ejecutar un modelo de IA local. Puede que ya seas usuario que usa la IA en tu vida cotidiana o que la uses para programar. Esto usando las capas gratuitas o algún plan de pago de Gemini de Google, ChatGPT de OpenAI o Claude de Anthropic.
¿Cómo usamos la IA y qué podemos hacer para tener nuestra propia IA?
Cuando usamos estos modelos, nos estamos conectando a los servidores de estas compañías para que se procese nuestra instrucción (el prompt) y con eso obtener un resultado. La preocupación de muchos es cómo se están usando estos datos una vez que son enviados. Esto más que nada cuando tenemos un plan gratuito, ya que en teoría, con un plan pago no se estarían usando estos datos para entrenar a los modelos.
Para evitar que nuestra información se procese en los servidores de alguna de estas empresas, podemos optar por ejecutar estos modelos de manera local, es decir, usar nuestra computadora para ejecutar el modelo.
Esto, por supuesto, tiene un montón de implicaciones. La primera es que los modelos son muy pesados de ejecutar, y pues lo más normal es que no tengamos el poder de cómputo que estas empresas tienen. Los centros de servidores de Google, Amazon o Microsoft tienen un poder de cómputo que para nosotros puede ser hasta imposible de adquirir.
Con el paso del tiempo, se han liberado modelos open source, que nosotros podemos usar. Pero, como te comento, requieren de equipos con especificaciones de alta gama. Especialmente que tengan una tarjeta gráfica con mucha VRAM. Estos componentes no son nada baratos; actualmente tenemos componentes que pueden costarnos alrededor de 4,500 dólares.
¿Esto quiere decir que necesito gastar todo ese dinero para usar los agentes de inteligencia artificial?
La respuesta es no; con el paso del tiempo han salido muchos más modelos, algunos que requieren muchos menos recursos. El problema de esto es que, entre menos recursos requiera el modelo, más lento y menos capaz va a ser.
Gemma 4 vs Qwen: eficiencia y rendimiento.
Toda esta información es para que podamos comprender lo que significa la reciente salida de Gemma 4 de Google. Este modelo recién lanzado y que hoy podemos utilizar de manera local ha traído un cambio bastante significativo, y es que, en las comparativas, se asemeja a los resultados obtenidos por el modelo qwen3.5-397b-a17b.

Esto suena confuso si no conocemos todo sobre los modelos, pero para darle una vista a este modelo, podemos consultar la página de Ollama, que es una herramienta que podemos usar para ejecutar estos modelos de IA.

Podremos notar que no aparece ni siquiera el peso de este modelo, que tiene 397 billones de parámetros, pero sí podemos ver el anterior, que solo tiene 122 billones de parámetros; esto es un tercio de ese modelo al cual puede compararse Gemma4.
Vamos a entender un poco sobre esto. Te comenté que necesitamos VRAM para ejecutar modelos, y hay una regla no escrita: necesitaremos alrededor de 81 GB de memoria VRAM para tratar de ejecutar el modelo de 122B.
Lo crítico de esto: actualmente no hay ninguna tarjeta gráfica comercial que tenga por lo menos 81 GB de memoria RAM. Existen, por supuesto, las Mac Studio, que actualmente pueden llegar a los 256 GB de memoria unificada que podrían ejecutarlos, o las DGX Spark de NVIDIA, que tienen 128 GB. Igualmente, la comunidad ha construido herramientas open source para poder crear clústeres de diversos equipos para repartir la carga y poder ejecutar estos modelos.
Exponiéndote la situación, Google ha liberado este modelo que se puede equiparar a uno que es muy pesado, pero utilizando menos recursos. A continuación están los modelos que al de hoy podemos utilizar:

Lo que nos dice Google sobre estos modelos, e2b y e4b, es que son modelos para dispositivos móviles. Mientras que los 26b y 31b son para computadores y servidores.
Pero, como podrás notar, el modelo más pesado de Gemma4 requiere 63 GB de almacenamiento, que es lo que podemos considerar que necesitará en memoria VRAM. Este sería el modelo que tenemos que comparar con el qwen3.5-122b; requeriría 81 GB, pero como vemos en el gráfico anterior, este nuevo modelo de Gemma 4 es mejor con menos recursos.
Pruebas con una MacBook Pro usando Gemma 4.
Me puse a probar con una MacBook Pro M4 Pro de 48 GB. Este equipo es uno con una potencia muy superior a muchos equipos, pero lo más importante es que actualmente tengo 48 GB de memoria unificada disponible para tratar de ejecutar estos modelos. Una mala noticia es que no puedo ejecutar el mejor de estos modelos.

Aun así, intenté ejecutar el modelo gemma4:31b-it-q8_0, que se supondría que podría ser el adecuado para mi hardware. Y aunque el modelo funcionó, sí tengo un par de anotaciones.
Para esta prueba, usé Ollama en la terminal, dejé el modelo descargando y, al cargarse por completo, percibí que la computadora se estaba dando tirones de rendimiento. Tuve que cerrar varias de las aplicaciones que tenía activas y pasé directamente a preguntarle cosas. Y todo funcionó bien, pero mi RAM subió a un uso de 96%, pasando a estar en un nivel 2 de uso de los 3 niveles que me muestra esta app.
Esto era de esperarse, pero que comenzara a trabarse si usaba otras apps no me lo esperaba. Y el otro punto del que tenemos que hablar es el calor a los chips. Estos llegaron a estar cerca de los 90 ºC con los ventiladores funcionando a más de 3500 RPM, según la aplicación de stats.

Esto es algo que nunca había visto con el equipo; normalmente trabajo a 40 °C y pon que pueden llegar hasta los 50 °C o 60 °C con los ventiladores a 1400 RPM cuando tengo varias máquinas virtuales levantadas al mismo tiempo, pero es algo raro.
Esto, al tacto de la parte trasera del portátil, podría llegar a sentirse muy caliente al punto, tanto que alguien no acostumbrado podría sentir que quema. Era demasiado y pasé un termómetro que no me marcó más de 37 ºC en la parte posterior del equipo.
Que tengamos que comenzar a estar a estas temperaturas y que no podría usarse ya era muy mala señal, así que opté por la segunda opción.

El siguiente modelo que probé fue el gemma4:26b-a4b-it-q4_K_M. Este con mejores resultados en cuanto a cómo se estaba forzando el hardware. Con este segundo modelo, la RAM solo se fue al 70% del uso. Y las temperaturas se mantuvieron a unos 50 ºC o 60 ºC.
Después de usar el chat para probar qué tan bien respondía, no tuvimos problema tampoco.
¿Qué tan útil es Gemma 4 como agente de código?
Si bien no me puse a probar todas las capacidades que podíamos tener con este modelo. Lo que me interesó fue observar qué tan bien se ejecutaba con este hardware y qué tan usable era.
Así que conecte a Ollama con Open Code para usar el modelo con este agente. Después de un par de problemas con Open Code, le pedí una tarea muy sencilla: una aplicación web hecha con HTML, CSS y JS. Y con éxito logró crearme una interfaz sencilla para administrar todo’s:


No tardó más de 5 minutos en poder generar los archivos HTML, CSS y JS, con un error en el funcionamiento. Pero le pedí que revisara dicho error y logró corregirlo directamente en el propio código. Con esto ya podemos ver que sí nos puede servir como agente de código.

¿Gemma 4 vs Chat GPT?
Lo que también realicé fue hacerle una consulta sobre el lenguaje Django y autenticación tanto a este modelo como a ChatGPT. Y te comento que aproximadamente en escribir la respuesta tardaron lo mismo; sin embargo, la respuesta de ChatGPT, como era de esperarse, es mucho más completa y con mucha más información.
Y comparto opinión con mucha gente; me preocupa usar la IA y que todos estos datos sean procesados por un tercero. ¿Sabes dónde más me preocupa? Cuando usamos Open Claw para controlar aplicaciones específicas, esa información y control yo preferiría tenerlo ejecutándose en local y es lo que he estado buscando.
Lo que también es un tema concurrente es que el tema del gasto de tokens se ha vuelto recurrente. Constantemente en redes veo que hay mucha gente que se gasta su límite diario o semanal de los tokens muy rápidamente. Por lo que tener un modelo que pueda ejecutarse en local combinado con uno de un servicio podría ser una opción viable.
¿Vale la pena usar IA local en 2026?
Sí, pero depende completamente de lo que estés buscando.
Realmente, tenía más de un año que no probaba un modelo local, y los resultados actuales me gustaron. Este nuevo modelo es un gran avance, en el que se hace que tengamos modelos más accesibles para que los podamos ejecutar. Esto no quiere decir que sea totalmente accesible para todas las computadoras, pero sí va mejorando mucho.
¿Dónde está el problema? Que, como te comenté, los modelos que son de suscripción siguen siendo mucho más potentes, rápidos, tienen mucha más capacidad de contexto; en general, obtenemos mucho mejores resultados pagando de momento 20 o 100 dólares mensuales que comprar un clúster de 5 Mac Studios o 3 o 4 de las mejores tarjetas gráficas para ejecutar el mejor modelo local.
Los modelos locales pueden ser muy útiles para muchas tareas; puede ser que una empresa pueda permitirse esto para su equipo de trabajo, y sea mucho más rentable.
Entonces, esto depende de lo que busques:
✔ Usa IA local si:
- Te preocupa la privacidad.
- Quieres evitar gasto en tokens.
- Trabajas con datos sensibles.
❌ Usa IA en la nube si:
- Necesitas máxima calidad.
- Buscas rapidez.
- No quieres preocuparte por hardware, su costo, o configuraciones.
La mejor estrategia hoy es combinar ambos enfoques.
Gemma 4 no reemplaza todavía a modelos como ChatGPT, pero marca un cambio importante: la IA local cada vez es más viable. Hoy, la nube sigue ganando en potencia y facilidad. Pero el control, la privacidad y el costo están empujando hacia modelos locales.
Para terminar, te dejaré el enlace a un par de recursos que pueden serte útiles. Si apenas estás adiestrándote en el uso de IA, como usar una herramienta como ChatGPT, puede serte útil el curso de Prompt Engineering, para que mejoremos cómo damos instrucciones a la IA para obtener mejores resultados.
Y el nuevo curso Ultimate IA para aprender a usar la IA, qué son los modelos, agentes, skills y lo necesario para usarla como una poderosa herramienta para poder desarrollar software.
Y uno adicional, que si no sabes que es la VRAM o para que sirve cada uno de los componentes tenemos el curso Introducción a la computación Parte 1 – Hardware para conocer sobre todos los componentes que componen a una computadora.
Cursos de Hola Mundo para aprender a programar.
Te dejaremos además el enlace a todos nuestros cursos de programación, los cuales los encontrarás disponibles en la academia Hola Mundo y puedes optar por adquirir los cursos de manera individual en el siguiente link: todos los cursos de Hola Mundo, si prefieres acceso a todo, también puedes elegir un plan de suscripción mensual o anual.

O igualmente puedes optar por cada curso de manera individual en Udemy (los cursos más nuevos solo se encuentran en la academia).
Biblioteca de Hola Mundo para aprender a programar.

Pero si tu tipo de aprendizaje se adapta mucho mejor a los libros, igualmente puedes acceder a nuestros títulos para aprender a programar y así armar tu propia biblioteca.
Podrás adquirir estos materiales en Amazon en su versión física y en su versión digital, donde también puedes ver un fragmento en esta misma página de Amazon para que así puedas consultar su contenido.
Y esto ha sido todo de este articulo, si te ha encantado, ¡golpea al botón de me gusta!, dejanos un comentario, y para no perderte nada, no olvides suscribirte a este blog, seguirnos en todas las redes como Youtube, Twitter, Instagram y Tiktok, y por último, te invitamos a escuchar nuestra música «Hola Beats«, diseñada para ayudarte a concentrarte y acompañarte en tu aprendizaje o trabajo, la puedes encontrar en Spotify, Apple Music, Amazon Music, Youtube Music y Deezer.
¡Hasta la próxima!, y chao mundo

Comments (1)
El futuro de la IA como servicio: desafíos y oportunidades.says:
abril 28, 2026 at 11:30 pm[…] no dependamos de las condiciones de una empresa. Te dejo por aquí un ejemplo de uso local y si una MacBook Pro M4 Pro puede soportarlo, y también unas pruebas. Para programar, ¿cuál modelo es […]