Tout le monde parle d'IA. Votre comptable veut que vous utilisiez ChatGPT pour rédiger des courriels. Votre directeur a vu une démo sur LinkedIn. Et pendant ce temps, vous vous demandez : « si je colle le contrat de mon plus gros client dans ChatGPT, où est-ce que ces données-là s'en vont, exactement? »
C'est une vraie question. Quand vous utilisez ChatGPT, Claude ou Gemini via leur interface web, vos données transitent par des serveurs aux États-Unis. Selon les conditions d'utilisation, elles peuvent servir à entraîner les modèles suivants. Pour un courriel générique, ce n'est pas grave. Pour un contrat confidentiel, des données RH ou un document financier, c'est une autre histoire.
Ce qui est encourageant : il existe maintenant des modèles d'IA que vous pouvez installer chez vous, sur votre propre serveur. Vos données ne sortent jamais de votre réseau. Et c'est beaucoup plus accessible qu'on pourrait le croire.
Un LLM local, ça veut dire quoi?
Un LLM (Large Language Model), c'est le moteur derrière ChatGPT, Claude et compagnie. C'est un programme qui a « lu » des milliards de pages web et qui peut ensuite générer du texte, répondre à des questions, résumer des documents, traduire, rédiger.
Normalement, ces modèles tournent sur d'immenses centres de données. Mais depuis 2023-2024, la communauté open source a rattrapé une bonne partie du retard. Des modèles comme Llama 3 (Meta), Mistral (startup française), Gemma (Google) et Phi (Microsoft) sont disponibles gratuitement, avec des licences qui permettent l'utilisation commerciale. Et ils sont assez compacts pour tourner sur du matériel raisonnable.
Un LLM local, c'est simplement un de ces modèles installé sur un serveur que vous contrôlez. Vos employés lui posent des questions, il répond. Les données restent dans vos murs.
Ollama : le point d'entrée le plus simple
Ollama est un outil libre qui simplifie radicalement le déploiement de LLMs. Pensez-y comme un « gestionnaire de modèles » : une seule commande pour télécharger un modèle, une seule commande pour le démarrer. Pas besoin de compiler du code, de configurer des dépendances ou de se battre avec des pilotes GPU pendant trois jours.
Concrètement, installer Ollama sur un serveur Linux prend environ cinq minutes. Ensuite, télécharger et lancer un modèle, c'est une ligne :
ollama run llama3.3
C'est tout. Le modèle se télécharge, se charge en mémoire, et vous pouvez commencer à lui parler. Ollama gère automatiquement la détection du GPU, l'allocation de la mémoire et l'optimisation des performances.
Ollama tourne sur Linux, macOS et Windows. Il expose une API compatible avec le standard OpenAI, ce qui veut dire que la plupart des outils qui fonctionnent avec ChatGPT peuvent aussi fonctionner avec votre modèle local. On y revient plus bas.
Open WebUI : l'interface que vos employés vont utiliser
Ollama tout seul, c'est un outil en ligne de commande. Parfait pour un technicien, inutilisable pour le reste de l'équipe. C'est là qu'Open WebUI entre en jeu.
Open WebUI est une interface web libre qui se connecte à Ollama et offre une expérience très similaire à ChatGPT : une fenêtre de conversation, un historique des échanges, la possibilité de joindre des fichiers. Vos employés n'ont pas besoin de savoir qu'il y a un LLM local derrière : pour eux, c'est « le ChatGPT de la compagnie ».
Le projet est très actif (plus de 45 000 étoiles sur GitHub, des mises à jour chaque semaine) et inclut des fonctions intéressantes pour les organisations : gestion des utilisateurs avec rôles, historique des conversations, téléversement de documents pour des questions contextuelles (RAG), support vocal avec Whisper, et même un éditeur de code intégré.
L'installation se fait avec Docker en quelques minutes. On pointe Open WebUI vers le serveur Ollama, et c'est prêt.
Quel matériel ça prend?
C'est la question qui revient toujours, et la réponse honnête est : ça dépend du modèle que vous voulez faire tourner.
| Modèle | Paramètres | RAM/VRAM minimum | Bon pour |
|---|---|---|---|
| Phi-3 Mini | 3.8B | 4 Go | Tâches simples, résumés courts, tests |
| Mistral 7B | 7B | 8 Go | Bon rapport qualité/taille, multilingue |
| Llama 3 8B | 8B | 8 Go | Usage général, grande communauté |
| Gemma 2 9B | 9B | 10 Go | Raisonnement, qualité élevée pour sa taille |
| Llama 3.3 70B | 70B | 48 Go | Qualité proche de GPT-4, mais exigeant |
En pratique, pour une PME qui veut commencer, voici ce qu'on recommande :
Budget minimal (autour de 2 000 $) : un serveur ou un PC dédié avec 32 Go de RAM et une carte graphique NVIDIA avec 8 Go de VRAM (comme une RTX 3060 ou 4060). Ça fait tourner confortablement les modèles 7-8B, qui sont suffisants pour la plupart des tâches de bureau.
Budget confortable (5 000-8 000 $) : un serveur avec 64 Go de RAM et un GPU NVIDIA avec 24 Go de VRAM (RTX 4090 ou A5000). Là, on peut faire tourner des modèles plus gros, servir plusieurs utilisateurs en même temps, et la qualité des réponses augmente sensiblement.
Sans GPU : c'est possible, mais plus lent. Ollama peut faire tourner les modèles sur le CPU seul. Pour un petit modèle (3-7B) utilisé par quelques personnes, ça reste fonctionnel. La réponse prend quelques secondes au lieu d'être instantanée.
Ce que ça change concrètement dans une PME
On ne va pas vous vendre l'IA comme la solution à tous vos problèmes. Mais il y a des cas d'usage concrets où un LLM local fait gagner du temps sans risquer vos données :
Résumer des documents longs. Un rapport de 40 pages, un procès-verbal, un appel d'offres : on le donne au modèle, il en sort un résumé structuré en 30 secondes. Ça ne remplace pas la lecture, mais ça donne un point de départ.
Rédiger des brouillons. Courriels, lettres, descriptions de postes, réponses types : le modèle produit un premier jet que vous ajustez. Ça fait gagner 10-15 minutes sur des tâches répétitives.
Chercher dans vos documents internes. Avec le RAG (Retrieval-Augmented Generation) d'Open WebUI, vos employés peuvent poser des questions en langage naturel sur vos procédures, politiques ou documentation technique. Le modèle va chercher l'information pertinente dans vos fichiers et formule une réponse.
Traduire. Les modèles récents sont étonnamment bons en traduction, surtout entre le français et l'anglais. Pour une PME québécoise qui jongle entre les deux langues au quotidien, c'est pratique.
Analyser des données textuelles. Classer des commentaires clients, extraire des informations structurées d'un lot de courriels, identifier des tendances dans des notes de réunion.
Intégration avec vos outils existants
Un LLM local ne vit pas en vase clos. Comme Ollama expose une API standard, il peut s'intégrer avec d'autres outils de votre infrastructure.
Nextcloud : si vous utilisez déjà Nextcloud pour vos fichiers et calendriers, sachez que l'Assistant IA de Nextcloud peut se connecter à un serveur Ollama local. Résumé de documents, génération de texte, traduction : tout ça directement depuis votre GED, sans que vos fichiers quittent votre serveur.
Scripts et automatisations : l'API d'Ollama permet d'automatiser des tâches répétitives. Par exemple, un script qui lit les nouveaux courriels de support, les classe par urgence et rédige un brouillon de réponse. Ou un autre qui résume automatiquement les procès-verbaux déposés dans un dossier partagé.
Odoo et autres ERP : avec un peu d'intégration, on peut connecter un LLM local à Odoo pour enrichir les fiches clients, résumer les échanges du chatter, ou rédiger des propositions à partir de modèles.
On a déjà publié un comparatif des modèles d'IA commerciaux (GPT, Claude, Gemini). L'IA locale, c'est le complément : vos données sensibles restent chez vous, et les tâches qui demandent un modèle plus puissant passent par un service externe au besoin.
Les modèles disponibles : lequel choisir?
Il y a des dizaines de modèles disponibles sur Ollama. Voici ceux qu'on recommande pour démarrer :
Llama 3.3 (Meta) : le plus polyvalent. Disponible en 8B et 70B paramètres. Grande communauté, beaucoup de variantes spécialisées (code, conversation, instruction). Contexte de 128K tokens, ce qui veut dire qu'il peut ingérer de longs documents. C'est notre premier choix pour un usage général.
Mistral 7B et Mixtral : excellent rapport qualité/taille. Mistral est une startup française, et leurs modèles sont particulièrement bons en français. Mixtral utilise une architecture « Mixture of Experts » : il a 46.7B de paramètres au total, mais n'en active que 12.9B par requête. Résultat : la qualité d'un gros modèle avec la vitesse d'un petit. Licence Apache 2.0, donc aucune restriction commerciale.
Phi-3 et Phi-4 (Microsoft) : les champions poids plume. Phi-3 Mini tourne avec 4 Go de RAM et offre des performances surprenantes pour sa taille. Idéal pour les tâches de raisonnement mathématique et les environnements très contraints en ressources.
Gemma 2 (Google) : très bonne qualité, surtout en 9B et 27B. Vitesse d'inférence rapide. Un bon choix si vous avez besoin de réponses de qualité sans mobiliser un gros GPU.
Les limites à garder en tête
On préfère être franc là-dessus plutôt que de vous laisser découvrir les limites après avoir investi.
Les modèles locaux sont moins puissants que GPT-4 ou Claude. Un modèle 7B, c'est impressionnant pour sa taille, mais il n'a pas la même capacité de raisonnement qu'un modèle de 1000+ milliards de paramètres qui tourne sur des milliers de GPU en centre de données. Pour des tâches complexes (analyse juridique fine, rédaction créative de haut niveau, code sophistiqué), les modèles commerciaux restent supérieurs.
Les hallucinations existent toujours. Un LLM local va inventer des faits avec la même assurance qu'un LLM commercial. Le RAG aide (on force le modèle à s'appuyer sur vos documents), mais il faut toujours vérifier les sorties avant de s'y fier pour une décision importante.
Ça demande du matériel dédié. Vous ne pouvez pas faire tourner un LLM sur le poste de travail de Marie en même temps que son Excel et son Outlook. Il faut un serveur dédié, et quelqu'un pour le maintenir. C'est un coût en plus de la licence du modèle (qui est gratuite).
La performance dépend du nombre d'utilisateurs simultanés. Un serveur avec un GPU 8 Go, c'est très bien pour 2-3 utilisateurs. Si 15 personnes envoient des requêtes en même temps, ça ralentit. Il faut dimensionner le matériel en conséquence.
Pas d'entraînement en temps réel. Votre LLM local ne « retient » pas ce que vous lui dites entre les sessions (sauf si vous configurez le RAG avec vos documents). Il ne s'améliore pas tout seul avec l'usage. Pour le personnaliser vraiment, il faut faire du fine-tuning, ce qui est un projet en soi.
Le support en français est variable. Les gros modèles (Llama 3.3 70B, Mixtral) gèrent bien le français. Les petits modèles (3-7B) sont souvent moins à l'aise et peuvent mélanger les langues ou faire des fautes. Mistral a un avantage ici, vu ses origines françaises.
Notre recommandation pour commencer avec l'IA locale :
- Identifier 2-3 cas d'usage concrets dans votre organisation (résumés, courriels, recherche documentaire)
- Installer Ollama + Open WebUI sur un serveur de test avec un modèle 7-8B
- Tester avec un petit groupe pendant 2-4 semaines
- Mesurer le temps gagné vs le coût du matériel
- Décider si ça vaut la peine de généraliser
Ce qu'on déploie pour nos clients
Chez Blue Fox, on aide nos clients à déployer de l'IA locale quand ça a du sens. On installe Ollama et Open WebUI sur un serveur hébergé au Québec, on choisit le modèle adapté aux besoins (et au budget matériel), et on connecte le tout à l'infrastructure existante : Nextcloud, Odoo, scripts d'automatisation.
On ne recommande pas l'IA locale pour tout. Si vous avez besoin de la puissance de GPT-4 ou Claude pour des tâches complexes, on vous conseillera d'utiliser ces services-là, mais en étant conscient de ce que vous y envoyez. L'approche hybride est souvent la plus sensée : les données confidentielles passent par le LLM local, le reste va dans le nuage quand la qualité l'exige.
Ce qu'on ne fait pas : installer un outil et disparaître. On forme vos équipes, on configure les permissions, on s'assure que l'adoption se fait pour vrai.
Par où commencer?
Si l'idée vous parle, pas besoin d'un gros projet. On peut commencer par un appel de 30 minutes pour comprendre vos besoins, puis installer un environnement de test en quelques heures. Vous essayez avec votre équipe pendant quelques semaines, et on voit si ça colle.
Ça vous intéresse? Explorons ça ensemble.
Sources
- Ollama : site officiel, documentation, liste des modèles supportés
- Open WebUI : interface web libre pour LLMs locaux
- Llama 3 (Meta) : modèles libres, benchmarks, licences
- Mistral AI : modèles européens, architecture Mixture of Experts
- Nextcloud AI as a Service : intégration d'Ollama avec Nextcloud
- LocalLLM.in : guide des exigences matérielles pour Ollama (VRAM, RAM)