wip
This commit is contained in:
parent
5cb24a8eed
commit
35f1c837ba
29
README.md
29
README.md
@ -44,7 +44,7 @@ make deploy-dev
|
||||
make test
|
||||
```
|
||||
|
||||
**Prérequis** :
|
||||
**Prérequis** :
|
||||
- Compte Hetzner (Robot + Cloud)
|
||||
- GitLab account pour CI/CD
|
||||
- 3x serveurs GEX44 commandés
|
||||
@ -97,7 +97,7 @@ make test
|
||||
| AWS | 9720€ | 850€ | 10570€ | +1430% |
|
||||
| Azure | 7926€ | 780€ | 8706€ | +1160% |
|
||||
|
||||
**Performance/€** :
|
||||
**Performance/€** :
|
||||
- Hetzner : 255 tokens/sec pour 691€
|
||||
- AWS : 360 tokens/sec pour 10570€
|
||||
- **ROI Hetzner** : 2.7x plus efficace
|
||||
@ -184,9 +184,9 @@ vllm_models:
|
||||
repo: "mistralai/Mixtral-8x7B-Instruct-v0.1"
|
||||
tensor_parallel_size: 1
|
||||
max_model_len: 4096
|
||||
|
||||
|
||||
- name: "llama2-70b"
|
||||
repo: "meta-llama/Llama-2-70b-chat-hf"
|
||||
repo: "meta-llama/Llama-2-70b-chat-hf"
|
||||
tensor_parallel_size: 4 # Multi-GPU
|
||||
max_model_len: 2048
|
||||
```
|
||||
@ -206,7 +206,7 @@ cd tests/terraform && go test -v
|
||||
# Configuration
|
||||
cd ansible && molecule test
|
||||
|
||||
# API Contracts
|
||||
# API Contracts
|
||||
python tests/contracts/test_inference_api.py
|
||||
|
||||
# Load Testing
|
||||
@ -230,7 +230,7 @@ k6 run tests/load/k6_inference_test.js
|
||||
## 📚 Documentation
|
||||
|
||||
- [**Architecture**](docs/ARCHITECTURE.md) : Diagrammes et décisions
|
||||
- [**Deployment**](docs/DEPLOYMENT.md) : Guide étape par étape
|
||||
- [**Deployment**](docs/DEPLOYMENT.md) : Guide étape par étape
|
||||
- [**Troubleshooting**](docs/TROUBLESHOOTING.md) : Solutions aux problèmes courants
|
||||
- [**Scaling**](docs/SCALING.md) : Quand et comment scaler
|
||||
- [**Costs**](docs/COSTS.md) : Analyse détaillée des coûts
|
||||
@ -239,7 +239,7 @@ k6 run tests/load/k6_inference_test.js
|
||||
|
||||
### Issues Communes
|
||||
1. **GPU pas détectée** → [Solution](docs/TROUBLESHOOTING.md#gpu-detection)
|
||||
2. **Latence élevée** → [Optimisation](docs/TROUBLESHOOTING.md#latency-optimization)
|
||||
2. **Latence élevée** → [Optimisation](docs/TROUBLESHOOTING.md#latency-optimization)
|
||||
3. **Out of memory** → [Configuration](docs/TROUBLESHOOTING.md#memory-management)
|
||||
|
||||
### Community
|
||||
@ -281,7 +281,7 @@ python scripts/cost-analysis.py
|
||||
# Métriques de décision
|
||||
python scripts/decision-metrics.py --period=30d
|
||||
|
||||
# Rapport mensuel automatique
|
||||
# Rapport mensuel automatique
|
||||
make cost-report
|
||||
```
|
||||
|
||||
@ -299,24 +299,15 @@ make cost-report
|
||||
- 🔄 Advanced cost optimization
|
||||
- 🔄 Model caching intelligent
|
||||
|
||||
### v2.0 (Q1 2025)
|
||||
### v2.0 (Q1 2025)
|
||||
- 🆕 Support H100 servers
|
||||
- 🆕 Edge deployment
|
||||
- 🆕 Fine-tuning pipeline
|
||||
- 🆕 Advanced observability
|
||||
|
||||
## 📄 License
|
||||
|
||||
MIT License - Voir [LICENSE](LICENSE) pour détails.
|
||||
|
||||
## 👥 Contributors
|
||||
|
||||
Développé avec ❤️ par l'équipe Infrastructure IA.
|
||||
|
||||
**Maintainer** : [@yourhandle](https://github.com/yourhandle)
|
||||
|
||||
---
|
||||
|
||||
⭐ **Star ce repo** si cette infrastructure vous aide !
|
||||
|
||||
📖 **Lire l'article complet** : [Infrastructure IA Production-Ready avec Hetzner](article.md)
|
||||
📖 **Lire l'article complet** : [Infrastructure IA Production-Ready avec Hetzner](article.md)
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user