Saltar al contenido principal

Homelab Proxmox — Doble servidor con agente IA

Destacado

Dos servidores físicos con Proxmox VE, 13 servicios 24/7, y un agente IA (Palomino) que opera la infraestructura vía API. Un año en producción.

Proxmox VE KVM LXC ZFS DuckDNS Nginx Proxy Manager Home Assistant MiniMax-M2.7 Ollama Debian NFS Let's Encrypt Tailscale

El problema

Tenía servicios domésticos que necesitaban estabilidad (Home Assistant, DNS, almacenamiento) y un banco de pruebas para aprender. Con un solo servidor, cualquier cambio arriesgaba los servicios críticos. La solución típica — tener dos máquinas separadas sin coordinación — multiplicaba el mantenimiento.

Necesitaba dos nodos con recursos suficientes, un hipervisor que los unificara, y automatización que me permitiera tocar sin miedo.

La decisión — por qué Proxmox

Elegí Proxmox VE por tres razones:

  1. KVM + LXC en el mismo hipervisor — algunas cargas necesitan VMs completas (Home Assistant, NAS), otras funcionan mejor como contenedores (Pi-hole, Mealie). Proxmox gestiona ambas sin tener que instalar nada extra.
  2. ZFS nativo — instantáneas, compresión, y checksums sin configurar un storage externo.
  3. API REST — quería que un agente IA gestionara la infraestructura. Proxmox expone todo vía API, desde arrancar VMs hasta hacer snapshots.

El stack elegido: dos servidores físicos con Proxmox, almacenamiento compartido vía NFS al NAS Synology, y acceso público controlado con DuckDNS + Let’s Encrypt.

La contrapartida que acepté: no hay cluster entre nodos. Cada uno funciona como cluster de un solo nodo. Los servicios críticos están aislados de los operativos por diseño, no por alta disponibilidad.

Implementación

Los nodos

NodoCPURAMRol
prometeusRyzen 5 2600 (6 cores)64 GBServicios críticos: HA, NAS, Nginx Proxy Manager, Frigate
luffyi5-7400 (4 cores)33 GBServicios operativos: DNS, dashboard, monitorización, agente IA

prometeus tiene exposición pública controlada vía DuckDNS. luffy solo es accesible desde LAN.

Servicios desplegados

ServicioNodoTipoRAMFunción
Home AssistantprometeusVM15 GBDomótica: luces, persianas, sensores
NAS virtualprometeusVM16 GBAlmacenamiento Linux nativo
Nginx Proxy ManagerprometeusLXC2 GBReverse proxy + SSL público
FrigateprometeusVM4 GBDetección de personas con GPU passthrough (RTX 1650 Super, 2 cámaras Reolink)
Palomino (agente IA)luffyVM10 GBOperador digital de infraestructura
Pi-hole + AdGuardluffyLXC1.5 GBDNS filtering (doble instancia)
HomarrluffyLXC8 GBDashboard de servicios
Pi-AlertluffyLXC512 MBMonitorización de red
MealieluffyLXC2 GBGestor de recetas

Total: 6 VMs QEMU + 7 contenedores LXC.

Capa de IA — Palomino

Palomino no es un chatbot. Es un operador digital que corre en una VM dentro del homelab y opera infraestructura real vía API REST y CLI. No necesita que yo abra una shell para tareas rutinarias.

Capacidades

  • Operaciones de infraestructura: arranca, para, migra, hace snapshots, backup y restore de VMs y CTs. Monitoriza RAM, CPU, disco y load en tiempo real. Diagnostica problemas leyendo logs, journalctl y estado de servicios.
  • Investigación profunda: procesa documentos grandes con subagentes en paralelo. Extrae API endpoints, comandos CLI, gotchas y patrones, y los sintetiza en chunks estructurados en español.
  • Coordinación multi-agente: colabora con Lia (portfolio y contenido público) y Codex (código y scripting técnico). Cada uno con su perfil y herramientas.

Motor IA

  • Principal: MiniMax-M2.7 (plan Plus de OpenClaw, contexto 205k tokens) — conexión directa, sin intermediarios.
  • Local: Ollama en 192.168.50.155 con RTX 2070 Super y 13 modelos, entre ellos llama3.1:8b (respaldo fiable), qwen3.5:27b (razonamiento profundo local), y qwen3.5:4b (tareas rápidas con privacidad).
  • Embeddings: nvidia/llama-nemotron-embed-vl-1b-v2 (2048 dimensiones) en LanceDB para búsqueda semántica.

Skills y base de conocimiento

Palomino mantiene 18 skills de Proxmox. La más relevante: proxmox-92-admin-handbook, una skill genérica y portable a cualquier cluster PVE 9.2.x. Contiene endpoints REST por recurso, comandos CLI clave, gotchas operacionales y un cookbook de operaciones diarias. Se creó procesando el Proxmox VE Administration Guide 9.2 (Mayo 2026, 700 páginas) con subagentes en paralelo.

La base de conocimiento vive en ~/.openclaw/workspace/knowledge/proxmox/ — 9 chunks sintetizados en español que suman 801 líneas:

ChunkCapítulos
chunk_qemu.mdCh 10 QEMU/KVM
chunk_lxc_users.mdCh 11 LXC + Ch 14 Users
chunk_sdn_firewall.mdCh 12 SDN + Ch 13 Firewall
chunk_cluster_storage_ha.mdCh 5+7+15 Cluster/Storage/HA (parcial)
chunk_ceph_replication.mdCh 8+9 Ceph/Replicación (parcial)
chunk_host_admin.mdCh 3 Host System Administration
chunk_backup.mdCh 16 Backup/Restore
chunk_misc_short.mdCh 4, 6, 17-20
cli_index.mdCh 21 CLI reference

Para tareas grandes, el agente spawnea hasta 5 subagentes simultáneos con dos niveles de profundidad. Cada subagente recibe su contexto limpio y el agente principal recibe solo los resúmenes — el documento crudo nunca satura su ventana de contexto.

Por qué esta capa es interesante como proyecto

  1. AI-on-infrastructure: el agente opera sistemas reales, no es un chatbot de chat.
  2. Documentación viva: la skill se sincroniza con el admin guide oficial y evoluciona con la herramienta.
  3. Investigación profunda con paralelismo: 700 páginas procesadas en minutos.
  4. Coordinación multi-agente: Palomino, Lia y Codex colaboran con roles diferenciados.
  5. Privacidad y control: modelos locales para tareas privadas, remotos para las que requieren más capacidad.
  6. Trazabilidad: heartbeats de agentes, versionado en vault, logs estructurados.

Métricas (junio 2026)

MétricaValor
VMs QEMU6 (3 en luffy, 3 en prometeus)
CTs LXC7 (6 en luffy, 1 en prometeus)
RAM total97 GB (33 + 64)
Uptime típico17 días luffy, 5 días prometeus (reinicios por mantenimiento)
Servicios críticostodos en prometeus (HA, NAS, NPM)
Conocimiento IA sintetizado9 chunks, 801 líneas en español del admin guide de 700 págs

Lecciones aprendidas

ACME: DNS-01 desde el principio. El HTTP-01 challenge de Let’s Encrypt falla cuando el puerto 80 lo sirve Nginx Proxy Manager en lugar del ACME interno de Proxmox. La solución es usar DNS-01 con DuckDNS — no depende de cómo esté ruteado el puerto 80. En un homelab detrás de NAT o reverse proxy, DNS-01 siempre gana.

Tokens con permisos completos desde el inicio. Un token de solo lectura no arranca una VM. Para que un agente opere la infraestructura necesita como mínimo Sys.Audit, VM.Audit, Datastore.Audit, VM.PowerMgmt y Sys.Modify. Perdí tiempo depurando 403 de la API antes de darme cuenta. Para crear un token admin: pveum user token add root@pam admin --privsep=0.

Documentación viva en lugar de estática. La skill proxmox-92-admin-handbook se mantiene actualizada contra el admin guide oficial. Es un activo que evoluciona con la herramienta, no un documento que se escribe y se olvida. Esto debería haber sido así desde el principio para todos los servicios, no solo para Proxmox.

Planificar VMIDs antes de clusterizar. luffy y prometeus arrancaron como clusters independientes. Si en algún momento decido unirlos, los VMID 100 colisionan (pihole en luffy contra homeassistant en prometeus). Si planeas cluster desde el día uno, reserva rangos de VMID por nodo.

Mantenimiento: las VMs olvidadas se acumulan. En luffy hay tres instancias paradas de pruebas anteriores (una de opnsense, una de cerebro, un pihole antiguo) que consumen RAM reservada sin hacer nada. Parte del mantenimiento periódico es auditar qué está realmente en uso.

Sanitizar siempre desde la API, no de memoria. La primera vez que consulté prometeus reporté “9 VMs + 3 CTs” — datos heredados de memoria sobre luffy, no de la API real. prometeus tiene 2 VMs + 1 LXC. Ahora todos los resúmenes se generan desde la API.

Roadmap

Corto plazo (esta semana)

  • Fix ACME renewal en prometeus — migrar a DNS-01 con DuckDNS
  • Limpiar VMs de pruebas en luffy — decidir destino de las instancias paradas
  • Diagnosticar CPU sostenido al 19.5% en la VM de NAS — identificar el proceso responsable
  • Documentar servicios detrás de Nginx Proxy Manager

Medio plazo (este mes)

  • Decidir cluster join o formalizar la separación — luffy y prometeus pueden unificarse o documentar por qué no
  • Proxmox Backup Server centralizado — backup unificado con deduplicación
  • Monitoring centralizado con Grafana + InfluxDB — actualmente Pi-Alert y Homarr cubren partes, pero falta una vista unificada
  • Métricas en vault — documento que se actualice automáticamente con el estado de la infraestructura

Largo plazo (próximos meses)

  • Segundo nodo en prometeus — añadir redundancia al cluster crítico para HA real
  • Terraform o Pulumi + Proxmox provider — infraestructura como código, complementario a la skill de IA
  • Codex automatizando tareas de mantenimiento — creación de VMs, backups, snapshots programados
  • Disaster recovery test — simular caída de prometeus, restaurar servicios críticos desde luffy

Backlog de ideas

  • Skill para generar diagramas de red automáticos desde la API
  • Calculadora de consumo energético por VM
  • Alertas proactivas cuando load > umbral o disco < mínimo
  • Wiki generado automáticamente desde el estado real de la infraestructura
  • Evaluar migración a Proxmox 10.x cuando esté disponible

Aprendizaje de hardware

El homelab no es solo servidores y contenedores. Detrás de la infraestructura hay una capa de hardware que he aprendido a tocar, reparar y modificar:

  • Fokoos — reparación completa y conversión a Klipper: la primera impresora llegó rota, sin documentación, y con una placa base que nadie en la comunidad recomendaba. La reparé, le instalé una SKR E3 V3 Mini, configuré Klipper desde cero, y lleva más de un año imprimiendo en producción sin necesitar soporte externo.
  • Genius — modificación integral: BLTouch, hotend, extrusor, cama caliente, tensores, electrónica nueva. Cada pieza la he cambiado y calibrado manualmente. La impresora que tengo ahora no se parece en nada a la que compré.
  • +20 consolas reparadas y limpiadas: PS4, PS3, portátiles. Lo que empezó como trastear se convirtió en un servicio freelance que me ha dado ingresos recurrentes y soltura con electrónica real.
  • De niño ya picaba hardware: curso MoLinux por la diputación, curso de Photoshop, montar PCs, desmontar todo lo que encontraba. Esa curiosidad se canalizó en sistemas más tarde, pero nunca desapareció.