¿Cuál es el LLM más grande que puede ejecutar una Intel Arc A770 (16GB)?

A 4 bits, ejecuta cómodamente modelos que necesitan hasta unos 15 GB de VRAM. Consulta la tabla para modelos concretos.

¿Qué modelos de IA funcionan en una Intel Arc A770 (16GB)? (16 GB, 2026)

La Intel Arc A770 (16GB) tiene 16 GB de memoria. Con cuantización de 4 bits (contexto de 8K), 48 de 83 LLMs locales populares caben cómodamente. Lista completa abajo, de menor a mayor.

Modelo	Parámetros	VRAM (Q4)	En 16 GB
nomic-embed-text v1.5 (137M)	0.137B	2.1 GB	Sí cabe
jina-reranker-v2 (300M)	0.3B	2.2 GB	Sí cabe
EmbeddingGemma (308M)	0.308B	2.2 GB	Sí cabe
bge-large-en-v1.5 (335M)	0.335B	2.2 GB	Sí cabe
bge-reranker-large (335M)	0.335B	2.2 GB	Sí cabe
stella-en-400M (435M)	0.435B	2.3 GB	Sí cabe
nomic-embed-text v2 MoE (475M)	0.475B	2.3 GB	Sí cabe
Qwen 2.5 Coder (0.5B)	0.5B	2.3 GB	Sí cabe
bge-m3 (567M)	0.567B	2.4 GB	Sí cabe
jina-embeddings-v3 (570M)	0.57B	2.4 GB	Sí cabe
Qwen 3 (0.6B)	0.6B	2.4 GB	Sí cabe
Qwen 3 Embedding (0.6B)	0.6B	2.4 GB	Sí cabe
Qwen 3 Reranker (0.6B)	0.6B	2.4 GB	Sí cabe
Gemma 3 (1B)	1B	2.7 GB	Sí cabe
DeepSeek-R1 Distill (1.5B)	1.5B	3.0 GB	Sí cabe
Qwen 2.5 Coder (1.5B)	1.5B	3.0 GB	Sí cabe
Qwen 3 (1.7B)	1.7B	3.1 GB	Sí cabe
Gemma 3n (E2B)	2B	3.3 GB	Sí cabe
SmolLM3 (3B)	3B	4.0 GB	Sí cabe
Llama 3.2 (3B)	3B	4.0 GB	Sí cabe
Qwen 2.5 Coder (3B)	3B	4.0 GB	Sí cabe
StarCoder 2 (3B)	3B	4.0 GB	Sí cabe
Qwen 2.5 VL (3B)	3B	4.0 GB	Sí cabe
Phi-4 Mini (3.8B)	3.8B	4.5 GB	Sí cabe
Gemma 3 (4B)	4B	4.7 GB	Sí cabe
Qwen 3 (4B)	4B	4.7 GB	Sí cabe
Qwen 3 VL (4B)	4B	4.7 GB	Sí cabe
Phi-4 Multimodal (5.6B)	5.6B	5.8 GB	Sí cabe
DeepSeek-R1 Distill (7B)	7B	6.7 GB	Sí cabe
StarCoder 2 (7B)	7B	6.7 GB	Sí cabe
Qwen 2.5 Coder (7B)	7.2B	6.8 GB	Sí cabe
Qwen 2.5 VL (7B)	7.2B	6.8 GB	Sí cabe
Llama 3.1 (8B)	8B	7.4 GB	Sí cabe
DeepSeek-R1 Distill (8B)	8B	7.4 GB	Sí cabe
Qwen 3 VL (8B)	8B	7.4 GB	Sí cabe
InternVL3 (8B)	8B	7.4 GB	Sí cabe
LLaVA 1.6 (8B)	8B	7.4 GB	Sí cabe
Qwen 3 (8B)	8.2B	7.5 GB	Sí cabe
Gemma 2 (9B)	9.2B	8.2 GB	Sí cabe
Llama 3.2 Vision (11B)	11B	9.4 GB	Sí cabe
Gemma 3 (12B)	12B	10.0 GB	Sí cabe
Pixtral (12B)	12B	10.0 GB	Sí cabe
DeepSeek-R1 Distill (14B)	14B	11.4 GB	Sí cabe
Phi-4 (14B)	14B	11.4 GB	Sí cabe
Qwen 3 (14B)	14.8B	11.9 GB	Sí cabe
Qwen 2.5 Coder (14B)	14.8B	11.9 GB	Sí cabe
StarCoder 2 (15B)	15B	12.1 GB	Sí cabe
DeepSeek-Coder-V2 Lite (16B)	16B	12.7 GB	Sí cabe
gpt-oss (20B MoE)	21B	16.1 GB	Justo
Devstral Small (24B)	24B	18.1 GB	No cabe
Codestral 25.01 (24B)	24B	18.1 GB	No cabe
Gemma 4 (26B MoE)	26B	19.4 GB	No cabe
Gemma 3 (27B)	27B	20.1 GB	No cabe
Qwen 3.6 (27B)	27B	20.1 GB	No cabe
Qwen 3 (30B-A3B MoE)	30.5B	22.4 GB	No cabe
Qwen 3 Coder (30B-A3B MoE)	30.5B	22.4 GB	No cabe
DeepSeek-R1 Distill (32B)	32B	23.4 GB	No cabe
Qwen 3 VL (32B)	32B	23.4 GB	No cabe
Qwen 2.5 (32B)	32.5B	23.8 GB	No cabe
Qwen 2.5 Coder (32B)	32.5B	23.8 GB	No cabe
Qwen 3 (32B)	32.8B	24.0 GB	No cabe
Qwen 3.6 (35B-A3B MoE)	35B	25.4 GB	No cabe
Llama 3.3 (70B)	70.6B	49.3 GB	No cabe
DeepSeek-R1 (70B Distill)	70.6B	49.3 GB	No cabe
Qwen 2.5 VL (72B)	72B	50.2 GB	No cabe
InternVL3 (78B)	78B	54.3 GB	No cabe
Llama 3.2 Vision (90B)	90B	62.3 GB	No cabe
GLM-4.5 Air (106B-A12B)	106B	73.0 GB	No cabe
Llama 4 Scout (109B MoE)	109B	75.0 GB	No cabe
gpt-oss (120B MoE)	117B	80.4 GB	No cabe
Mistral Large 2 (123B)	123B	84.4 GB	No cabe
DeepSeek-Coder-V2 (236B)	236B	160.1 GB	No cabe
DeepSeek-V4-Flash (284B-A13B)	284B	192.3 GB	No cabe
GLM-4.6 (355B-A32B)	355B	239.9 GB	No cabe
Llama 4 Maverick (400B MoE)	400B	270.0 GB	No cabe
Llama 3.1 (405B)	405B	273.4 GB	No cabe
MiniMax M3 (428B-A23B MoE)	428B	288.8 GB	No cabe
Qwen 3 Coder (480B-A35B)	480B	323.6 GB	No cabe
DeepSeek-V3.1 (671B)	671B	451.6 GB	No cabe
DeepSeek-R1 (671B Full)	671B	451.6 GB	No cabe
GLM-5.2 (744B-A40B MoE)	744B	500.5 GB	No cabe
Kimi K2 (1T MoE)	1000B	672.0 GB	No cabe
DeepSeek-V4-Pro (1.6T MoE)	1600B	1074.0 GB	No cabe

"Justo" significa que cabe con poco margen — cierra otras apps que usen la GPU o espera algo de descarga a la RAM del sistema. Para los modelos que no caben, baja a un modelo más pequeño, usa 2 bits o sube de VRAM.

Obtén el número exacto para tu equipo

Elige tu modelo, cuantización y longitud de contexto — la calculadora muestra toda la matemática de VRAM y te dice exactamente qué hardware encaja.

Abrir la calculadora de IA local →

Las cifras de VRAM son estimaciones reproducibles (pesos + caché KV + sobrecarga) y varían según el runtime y el formato de cuantización. Datos vigentes al 2026-07-05.