Qwen 2.5 Coder (7B) tiene 7.2 mil millones de parámetros. Con cuantización estándar de 4 bits y 8K de contexto, necesita aproximadamente 6.8 GB de VRAM — pesos más caché y sobrecarga del runtime.
VRAM por cuantización
| Precisión | Pesos | Caché/Búfer | VRAM total |
|---|---|---|---|
| 2-bit (IQ2_XXS) | 2.3 GB | 0.9 GB | 5.2 GB |
| 4-bit (Q4_K_M) | 4.0 GB | 0.9 GB | 6.8 GB |
| 8-bit (Q8_0) | 7.6 GB | 0.9 GB | 10.4 GB |
| 16-bit (FP16) | 14.4 GB | 0.9 GB | 17.3 GB |
¿Qué GPU puede ejecutar Qwen 2.5 Coder (7B) (a 4 bits)?
| Clase de GPU | VRAM | Qwen 2.5 Coder (7B) (6.8 GB) |
|---|---|---|
| 8 GB · RTX 5060 / 4060 | 8 GB | Sí cabe |
| 12 GB · RTX 5070 / 3060 | 12 GB | Sí cabe |
| 16 GB · RTX 5070 Ti / 4080 | 16 GB | Sí cabe |
| 24 GB · RTX 4090 / 3090 | 24 GB | Sí cabe |
| 32 GB · RTX 5090 | 32 GB | Sí cabe |
| 48 GB · 2×24 / RTX 6000 Ada | 48 GB | Sí cabe |
| 128 GB · M-series / RTX Spark | 128 GB | Sí cabe |
Obtén el número exacto para tu equipo
Elige tu modelo, cuantización y longitud de contexto — la calculadora muestra toda la matemática de VRAM y te dice exactamente qué hardware encaja.
Abrir la calculadora de IA local →
Las cifras de VRAM son estimaciones reproducibles (pesos + caché KV + sobrecarga) y varían según el runtime y el formato de cuantización. Datos vigentes al 2026-06-18.