🔄 Status: Download de Modelo em Progresso
O que está acontecendo?​
Na primeira execução, o servidor precisa baixar o modelo Qwen 1.8B (~1.1 GB) do HuggingFace.
Progresso Esperado:​
- âś… Cliente envia mensagem
- ✅ Servidor recebe requisição gRPC
- 🔄 AGORA: Servidor baixando modelo Qwen 1.8B (~1.1 GB)
- ⏳ Aguardando: Carregamento do modelo em memória
- ⏳ Aguardando: Geração de resposta
- ⏳ Aguardando: Streaming de tokens para cliente
Tempo Estimado:​
- Download: 2-5 minutos (depende da conexĂŁo)
- Carregamento: 10-30 segundos
- Primeira resposta: 5-10 segundos apĂłs carregamento
Como Monitorar:​
# Verificar tamanho do cache (deve crescer até ~1.2 GB)
watch -n 2 'du -sh ~/.cache/huggingface/'
# Verificar processos de download
ps aux | grep -E "(hf-hub|huggingface)"
# Verificar conexões de rede
netstat -tn | grep ESTABLISHED
O que fazer agora:​
AGUARDE a primeira resposta. Isso pode levar 3-5 minutos na primeira execução.
Nas próximas execuções, as respostas serão instantâneas (modelo já em cache).
Status: Download em progresso. NĂŁo feche o cliente nem o servidor!