Les tokens : la monnaie des LLM
Quand vous interagissez avec ChatGPT, vous ne communiquez pas directement en mots ou en phrases. Le modèle travaille avec des tokens — des fragments de texte qui peuvent être des syllabes, des mots entiers ou des groupes de lettres courants.
Pourquoi cette granularité ? Parce que le réseau de neurones prédit le prochain token, pas le prochain mot. Cette architecture permet une flexibilité remarquable : gérer les néologismes, les fautes d'orthographe, le code informatique, les langues rares, les emojis.
Comprendre la tokenisation en pratique
Le mot "formation" est un seul token en anglais ("formation") mais peut en être 2 en français selon le contexte ("forma" + "tion"). Les mots rares ou longs sont souvent découpés en plusieurs tokens.
Conséquences pratiques :
- Les textes français consomment ~20% plus de tokens que les textes anglais équivalents
- Le code informatique est généralement très efficace (peu de tokens par information)
- Les symboles spéciaux et la ponctuation comptent comme des tokens
Exemple pratique step-by-step
Estimer le coût d'un projet RAG sur vos documents internes :
Étape 1 — Inventorier vos documents : 200 pages de documentation interne = ~140 000 tokens
Étape 2 — Calculer le coût d'indexation : avec text-embedding-3-small d'OpenAI (0,02$ pour 1M tokens) → 0,0028$ pour indexer tous vos documents. Négligeable.
Étape 3 — Estimer le coût d'usage quotidien : 50 questions/jour × 500 tokens/question (prompt + contexte RAG) + 300 tokens/réponse = 40 000 tokens/jour. Avec GPT-4o-mini : ~0,05$/jour. Avec GPT-4o : ~0,50$/jour.
Étape 4 — Comparer avec le coût actuel : si votre équipe passe 30 min/jour à chercher dans la documentation, le ROI est immédiat même avec GPT-4o.
Conclusion : le coût en tokens est rarement le facteur limitant. La vraie décision est sur la qualité du modèle et la conformité des données.