Intégration LLM & RAG
Pipelines RAG complets : ingestion, chunking, embeddings, bases vectorielles (LanceDB), reranking, et orchestration via LangChain / LangGraph. GPT-4, Gemini ou modèles locaux (Ollama).
★ Freelance · IA / LLM · Paris
Je suis Ali El Mufti, consultant et développeur IA freelance basé à Paris. J'intègre des fonctionnalités IA réellement utiles — LLM, RAG, agents, recherche sémantique — dans des produits en production, sans hype ni POC qui ne sortent jamais. Fullstack (Java, Python, TypeScript) : je livre du code qui tourne, pas des slides. Remote en Europe ou sur site à Paris.
6×
recherche IA accélérée
60s→10s
latence divisée
RAG
pipelines en prod
FR/EN/AR
trilingue
Pipelines RAG complets : ingestion, chunking, embeddings, bases vectorielles (LanceDB), reranking, et orchestration via LangChain / LangGraph. GPT-4, Gemini ou modèles locaux (Ollama).
Agents outillés, function calling, workflows multi-étapes fiables, garde-fous et évaluation. De l'idée à un agent qui rend vraiment service en production.
Moteurs de recherche dopés aux embeddings : pertinence accrue, latence maîtrisée, hybridation lexicale/vectorielle. J'ai fait passer une recherche immobilière de 60 s à 10 s chez Upfund.
Choix de modèles, coûts, sécurité, observabilité, et intégration propre dans vos apps Angular/React. Fullstack Java Spring Boot ou Python FastAPI pour le back.
6×
Barre de recherche propulsée par LLM/RAG sur une plateforme SaaS fintech : temps de réponse passé de 60 s à 10 s, avec une pertinence nettement meilleure.
RAG
Conception de pipelines RAG complets (embeddings, base vectorielle LanceDB, reranking) intégrés à des front Angular/React, avec garde-fous et évaluation.
Fullstack
Back Java Spring Boot / Python FastAPI, API REST/GraphQL, et features IA livrées dans des apps qui tournent — pas des POC abandonnés.
Intégration de LLM, pipelines RAG, agents IA, recherche sémantique, et mise en production de features IA dans des apps existantes. Je travaille surtout sur des produits réels, pas des POC sans suite.
GPT-4, Gemini, modèles locaux via Ollama ; LangChain et LangGraph ; bases vectorielles (LanceDB) ; API OpenAI et Gemini ; ingénierie de prompts et évaluation. Côté back, Java Spring Boot ou Python FastAPI.
Oui — je suis fullstack. Je peux livrer la feature IA, le back-end (Java/Python) et l'intégration front Angular/React, donc la chaîne complète, pas seulement le prompt.
Mon TJM démarre à 600 € HT/jour, ajusté selon la durée, le périmètre et le mode (remote/sur site). Réservez un appel de 30 min sur Collective (app.collective.work/collective/ali-el-mufti) ou contactez-moi sur Malt — je réponds généralement sous 24 h ouvrées.