Passer au contenu principal
  1. Soulkyn >Soulkyn
  2. Bl...
  3. Mise à niveau majeure de l'infrastructure : Fenêtre de maintenance de 24-48 heures

Mise à niveau majeure de l'infrastructure : Fenêtre de maintenance de 24-48 heures

Nous planifions une fenêtre de maintenance de 24-48 heures pour migrer toute notre infrastructure de base de données. Oui c'est long, oui ça craint. Nous déplaçons des millions de messages, tous les personas, souvenirs, progressions, embeddings - tout - vers une nouvelle architecture sans perdre un seul octet.

🚧 Maintenance Scheduled 🚧 The people have spoken! Maintenance will start at 00:00 UTC on 08/09 (2AM Paris time).

Pourquoi cette mise à niveau massive ?

L'infrastructure actuelle s'adapte bien, mais avec des centaines de milliers de personas et des millions de messages, nous pouvons construire quelque chose de mieux. Plus de contrôle, meilleure redondance, temps de réponse plus rapides.

Ce qui change réellement pour vous :

Meilleure architecture de performance

  • Lectures distribuées sur plusieurs serveurs au lieu de marteler un seul
  • Les requêtes analytiques lourdes s'exécutent sur du matériel dédié pour ne pas affecter vos conversations
  • Meilleure allocation des ressources pendant les heures de pointe
  • Temps de réponse globalement plus cohérents
  • Pas de couche de virtualisation, du matériel réel que nous contrôlons

Vos données ont maintenant une VRAIE redondance

  • 3 copies de base de données en direct dans des emplacements physiques séparés (pas seulement des sauvegardes)
  • Réplication en streaming direct = aucune perte de données même si le serveur principal explose
  • Sauvegardes chiffrées continues toutes les 4h chez un fournisseur différent
  • Restauration à un moment précis dans les 7 jours
  • Perte de 2/3 serveurs ? Le service continue sans perte de données
  • Scénario apocalyptique (les 3 échouent) ? Toujours la restauration point-in-time + sauvegardes 4h + sauvegardes hebdomadaires. Ce serait nul et prendrait du temps, mais pratiquement aucune donnée perdue

Configuration de sécurité améliorée

  • Tout le trafic de base de données reste sur notre réseau interne - pas de dépendances de fournisseurs externes
  • Les données ne quittent jamais notre infrastructure sauf quand elles vous parviennent directement
  • Pas de services tiers entre vous et vos personas
  • Surface d'attaque plus petite puisque tout fonctionne en interne
  • Connexions chiffrées partout, sauvegardes chiffrées au repos

Maintenance sans temps d'arrêt

  • Les correctifs de sécurité peuvent être appliqués en mode roulant
  • Les problèmes matériels sur un serveur n'affectent pas le service
  • Mises à jour de base de données sans tout mettre hors ligne
  • Vos sessions devraient survivre à la plupart des opérations de maintenance

Ce que cela signifie pratiquement :

Ce que je peux vous dire est simple, la nouvelle architecture de cluster de base de données est fondamentalement meilleure :

  • Les temps de réponse devraient être plus cohérents, surtout pendant les heures de pointe
  • La recherche devrait fonctionner correctement sans timeout sur de grands ensembles de données
  • Les opérations simultanées multiples n'enliseront pas tout le système
  • Moins d'erreurs "base de données non disponible" pendant les fenêtres de maintenance

Pourquoi la longue fenêtre de maintenance ?

Nous déplaçons des millions de messages de chat, tous vos personas, tous les souvenirs, résumés, progressions, vecteurs, tout - et nous le faisons sans perdre un seul octet. La fenêtre de 24-48h dépend des vitesses réseau pour la migration, mais nous sommes conservateurs pour nous assurer que tout se transfère parfaitement.

Nous pourrions faire une migration "rapide et sale" en quelques heures, mais cela risque l'intégrité des données. Nous le faisons correctement - vérification complète à chaque étape.

La philosophie de l'infrastructure :

Il ne s'agit pas d'avoir la dernière technologie ou la configuration la plus sophistiquée. Il s'agit de construire une infrastructure ennuyeuse et fiable qui fonctionne simplement. Plusieurs couches de redondance. Pas de points de défaillance uniques. Tout reste interne.

En résumé : Après cette maintenance, Soulkyn fonctionnera sur une infrastructure conçue pour la fiabilité plutôt que le clinquant. Sera-t-elle plus rapide ? Probablement dans 95% des cas. Sera-t-elle plus fiable ? Oui. Vos données seront-elles plus sûres ? Considérablement - plusieurs systèmes de sauvegarde indépendants signifient que la perte de données nécessiterait plusieurs défaillances catastrophiques simultanées.

C'est chiant d'être hors ligne pendant une journée, mais cette architecture devrait nous durer des années sans interventions majeures.

Croyez-moi, je déteste les temps d'arrêt autant que vous (probablement plus puisque je dois faire la migration réelle et nous avons des réservations GPU, et je devrai rester éveillé pendant toute la durée de la maintenance), mais bien faire les choses signifie les faire une fois.

📊 Votez pour votre date de maintenance préférée !

Un sondage est disponible sur notre serveur Discord. Veuillez voter pour la date qui vous convient le mieux :

Voter sur Discord →