Hoje o chat sempre responde usando a Groq (API gratuita, modelo
llama-3.3-70b-versatile), e cada pergunta feita alimenta automaticamente a base de
conhecimento do ChromaDB — o sistema "aprende" sozinho a cada uso, mesmo sem alguém subir documentos
manualmente pelo admin.
Você faz uma pergunta
EntradaO texto digitado no chat é enviado como está, em português, para o servidor.
A Groq responde imediatamente
llama-3.3-70b-versatileToda pergunta, sem exceção, é enviada para a API da Groq — que é extremamente rápida (geralmente 1 a 2 segundos). É essa resposta que aparece no chat para você, sem esperar nenhum modelo local.
A resposta vira embedding
nomic-embed-text
Em paralelo, o texto da resposta da Groq é salvo como um novo documento e passa pelo modelo de
embedding local (nomic-embed-text, via Ollama). O resultado é um vetor de 768 números —
uma representação matemática do significado daquele texto.
O chunk é gravado no ChromaDB
Novo conhecimentoO vetor e o texto são armazenados como um novo chunk na coleção. A partir de agora, essa informação faz parte da base local — e pode ser consultada, visualizada e apagada pelo painel admin.
A cada pergunta, o ChromaDB já é consultado
Busca vetorial (L2)Mesmo respondendo sempre pela Groq, o sistema também compara o vetor da sua pergunta com os vetores já salvos, usando distância L2 ao quadrado (a métrica padrão do ChromaDB — não é cosine similarity, embora as duas meçam "proximidade" de significado de formas diferentes). Isso serve hoje principalmente para instrumentação e para a página de debug, que mostra o cálculo completo passo a passo.