Skip to content
Snippets Groups Projects

Post-Mortem BBB

Merged Tom Teichler requested to merge post-mortem-bbb into master
1 file
+ 49
0
Compare changes
  • Side-by-side
  • Inline
+ 49
0
title: Teilweiser Ausfall des BigBlueButton-Dienstes
date: 2021-01-29
author: Tom Teichler
lang: de
Am 29. Januar 2021 sind nach einer Änderung der Konfiguration der
BigBlueButton-Server teilweise Funktionen des BigBlueButton-Dienstes
ausgefallen.
# Was ist passiert?
Am Abend des 28. Januar 2021 wurde eine Änderung der Anzahl der maximalen
Breakouträume auf nahezu allen Servern im BigBlueButton-Cluster ausgerollt.
Dabei wurde übersehen, dass in dieser Konfigurationsdatei auch die URL für
den kurento-Dienst steht, der für die Videoübertragung (also Kamera- und
Bildschirmfreigabe) zuständig ist. Nachdem die Konfigurationsdatei auf alle
BBB-Server synchronisiert wurde, ist nicht aufgefallen, dass überall der
gleiche kurento-Server konfiguriert war, und nicht mehr jeder Server seinen
eigenen genutzt hat, was dazu geführt hat, dass auf allen Server außer auf
bbb1 und bbb4 weder das Aktivieren der Kamera noch das Freigeben des eigenen
Bildschirms möglich war.
# Was war das Ziel der Änderung?
Ziel der Änderung war, die maximale Anzahl von Breakouträumen von 8 auf 15
zu erhöhen.
# Was ist dabei schiefgelaufen?
Die Konfigurationsdatei wurde auf einem der Server verändert und dann auf
alle anderen synchronisiert. Dabei wurde nicht aufgepasst und im Nachhinein
wurde nur die Übertragung von Audio, nicht aber die von Video getestet.
# Wer war betroffen?
Betroffen waren alle Personen, deren Meetings auf den Servern bbb2 und bbb3,
sowie bbb5 - bbb9 gestartet wurden.
# Was tun wir technisch, um das in Zukunft zu verhindern?
In Zukunft sollen Änderungen nicht ausgerollt werden, indem ganze
Konfigurationsdateien synchronisiert werden, sondern indem man gezielt
Optionen in den Konfigurationsdateien durch die Nutzung von Shell-Skripten
oder Ansible ändert.
# Was tun wir organisatorisch, um das in Zukunft zu verhindern?
Es wird darauf geachtet, dass Änderungen von Personen getestet werden, die
die Änderung nicht ausgerollt haben, um das 4-Augen-Prinzip zu wahren.
Loading