Montagem do prompt
O LangChain junta: pergunta do usuário + contexto recuperado (trechos mais relevantes)
Isso forma o “superprompt” que será enviado ao modelo via Ollama.
Geração da resposta
O modelo recebe a pergunta + contexto real e gera a resposta
Sem RAG: o modelo é como um estagiário inteligente que já leu muita coisa, mas nunca viu teu projeto.
Com RAG: além do conhecimento geral, você dá a ele acesso a uma estante com toda a documentação e código atualizado. Antes de responder, ele folheia essa estante e usa os trechos certos na resposta.
Transformação em embeddings nomic-embed-text rodando no Ollama
Resultado: você tem um mapa matemático do repositório, onde ideias semelhantes ficam próximas.