Skip to main content

🔄 Status: Download de Modelo em Progresso

O que está acontecendo?​

Na primeira execução, o servidor precisa baixar o modelo Qwen 1.8B (~1.1 GB) do HuggingFace.

Progresso Esperado:​

  1. âś… Cliente envia mensagem
  2. ✅ Servidor recebe requisição gRPC
  3. 🔄 AGORA: Servidor baixando modelo Qwen 1.8B (~1.1 GB)
  4. ⏳ Aguardando: Carregamento do modelo em memória
  5. ⏳ Aguardando: Geração de resposta
  6. ⏳ Aguardando: Streaming de tokens para cliente

Tempo Estimado:​

  • Download: 2-5 minutos (depende da conexĂŁo)
  • Carregamento: 10-30 segundos
  • Primeira resposta: 5-10 segundos apĂłs carregamento

Como Monitorar:​

# Verificar tamanho do cache (deve crescer até ~1.2 GB)
watch -n 2 'du -sh ~/.cache/huggingface/'

# Verificar processos de download
ps aux | grep -E "(hf-hub|huggingface)"

# Verificar conexões de rede
netstat -tn | grep ESTABLISHED

O que fazer agora:​

AGUARDE a primeira resposta. Isso pode levar 3-5 minutos na primeira execução.

Nas próximas execuções, as respostas serão instantâneas (modelo já em cache).


Status: Download em progresso. NĂŁo feche o cliente nem o servidor!