Minerador de Leilões de Imóveis
Situation
O processo de prospecção era um gargalo operacional. Um estagiário varria portais de leiloeiros manualmente, resultando em perda de dados e falta de padronização. A escala envolvia dez bancos (BB, Bradesco, Santander, Itaú, etc.) e múltiplos portais agregadores sem APIs disponíveis.
A restrição comercial era clara: entrega semanal de leads qualificados em planilha, com custo zero de infraestrutura externa (sem proxy pago, sem cloud).
Task
Como engenheiro solo e PO, meu papel foi desenhar a arquitetura, implementar os scrapers, normalizar os dados e gerenciar a expectativa do cliente através de ciclos curtos de entrega. O critério de sucesso era a entrega de leads únicos, rastreáveis até a URL original, em um formato auditável.
Action
Arquitetura de Pipeline Desacoplada
Implementei o sistema como um pipeline de quatro estágios com persistência em disco: data/raw/ → data/parsed/ → data/normalized/ → data/output/.
graph LR
subgraph Fontes ["Fontes Heterogêneas"]
A[Portal Zuk]
B[Seu Imóvel BB]
C[Bradesco Vitrine]
D[Viacredi/Ailos]
end
E[Collector Layer] --> F[/data/raw/]
F --> G[Parser/Normalizer]
G --> H[/data/normalized/]
H --> I[Deduper Hash]
I --> J[[XLSX Delivery]]
A & B & C & D --> EDecisões Técnicas Principais
- Schema Único: Traduzi o vocabulário variado de 7+ portais para um schema comercial único, simplificando a consolidação final.
- Deduplicação por Hash: Usei hash de campos invariantes (endereço + banco + valor) para garantir que o cliente nunca recebesse leads repetidos, independente da mudança de URLs nos portais.
- Mission-Control: Implementei um log de ciclo rigoroso (
Status/Entregue/Pendente) que salvou o projeto de desvios de escopo após o Ciclo 1.
Result
Métricas de Impacto
Impacto Qualitativo
O projeto não apenas automatizou o processo, mas transformou a operação do cliente. O comando --build-delivery-banks gera a planilha pronta para contato, reduzindo o trabalho manual de dias para segundos. A arquitetura plugável permitiu adicionar novas fontes em menos de 24h conforme a necessidade comercial evoluiu.
Nota de Compliance: Todos os nomes de devedores e dados sensíveis foram mascarados ou removidos. O case foca na engenharia de dados e na eficácia da pipeline de coleta pública.