Redundanz oder Relevanz komprimieren?

Warum aus Weniger niemals wirklich mehr werden kann

Ich denke es passt zu meinem vorigen Beitrag.
Grundlegendes über große und kleine Dateien:

Wir haben je nach Quelle erst einmal große Dateien!
Eine Kamera macht ein Bild mit soundsoviel Megapixeln,
ein Musikstück auf dem PC ist als WAV gerippt bei 44,1 kHz und 16 BIT-Abtastrate recht groß.
Vollformat AVI Dateien sind riesig.

In Roh-Formaten sind Bilder sogar als TIFF oder BMP eine wirkliche 1 zu 1 Darstellung. Das bedeutet jedes Pixel hat einen konkreten Farbwert und natürlich die genaue Position.
Damit sind diese Bildformate sehr groß.
Bei unkomprimierten WAV-Audiodateien ist es ähnlich; pro Zeiteinheit ist genau der Pegel, Amplitude,… direkt abzutasten und abzuspielen. (Ist also nichts anderes, als ein unkomprimiertes Bild über die Zeit hinweg).
Bei AVI Vollformaten ist es genauso. Hier werden tausende Einzelbilder über die Zeit hinweg angezeigt und ein Ton dazu abgespielt (pro Millisekunde eine Menge Daten).

Was ist der Unterschied zwischen den Dateien?

Ganz einfach, manche Dateien sind sehr groß, weil sie ALLE Informationen enthalten und manche sind klein, weil Informationen ausgedünnt wurden!

Das alles ist ok, solange die Kompression gut gewählt wurde.
Ein AVI mit einem DivX Film ist verhältnismäßig klein, weil für den Menschen unwichtige Informationen ausgedünnt wurden (weil wir einfach das Detail, die Farbnuance, die Millisekunde des Details nicht sehen).
Ein MP3 besteht meist aus einem großen WAV, bei dem Schattenfrequenzen,…. ausgedünnt wurden, weil wir sie nicht so stark wahrnehmen.
Wenn man ein JPEG speichert, kann man auswählen mit welchem Kompressionsfaktor diese gespeichert werden – hier werden auch (mehr oder minder) wichtige Datei und Detail-Informationen ausgelassen.
Beispiel an einem Bild: In einem Sonnenuntergang sind viiiiieeeele Orange-Töne zu finden.
Diese kann ich am PC bis auf vielleicht 3 Töne runterrechnen – alle Töne dazwischen bekommen einen Wert: hellorange, orange oder dunkelorange. Das sieht dementsprechend doof aus, weil mein Detail des Bildes einmal soooo schön alle Farben angezeigt hatte.
Genauso kann ich auch die Auflösung runterrechnen: Vorher fast 4000x irgendwas Pixel kann ich auch als 1024 Pixel speichern.
Und ich habe etwas wichtiges Verloren! Informationen fehlen!
Verlustfrei gespeichert sagt die jeweilige Kompression jedoch einfach „rotes Pixel“ ist auf folgenden hunderten Koordinaten zu finden.
Verlustvoll hingegen sagt es übertrieben jedoch, dass dies auch für alle dunkel orangen, rosanen und violetten Töne gilt.
Bei Audio-Dateien ist es genauso. Ich kann diese entweder was die Auflösung (8 Bit oder 16 Bit) oder die Abtastrate soundsoviel kHz schlechter speichern.

Man verliert Informationen, die niemals wieder herzustellen sind!
Also bitte speichert auch kleinere / skalierte Bilder immer erst als Vollformat für euer Archiv und dann könnt ihr gerne heruntergerechnete, anderswo die DateienKleiner0001.jpg anlegen (niemals die originale überschreiben!!!).

Zum Thema:

Relevanz oder Redundanz

Redundanz wiederkehrende Informationen (lat. sogar überflüssig) kann man komprimieren ohne Informationen zu verlieren! Und solche Dateien lassen sich dann auch völlig verlustfrei wieder herstellen!

Beispiel in einer Textdatei: Suche alle Worte (nach Häufigkeit) „Ich“ und nenne sie „a“ und suche alle Worte „arbeit“ und nenne sie „b“ das alles bis ins Detail gebracht spart massiv Speicherplatz, weil ich nur noch sagen muss „a b(+e) in einer Firma“. Jetzt kommts noch krasser, das wird digital noch viel sinnvoller eingepackt als wir es uns denken können, dass wirklich wiederkehrende Inhalte so eingepackt werden! Die binäre Folge 1101010 wird dann z.B. gepackt, weil diese oft auftaucht,…

Wenn ich ein so komprimiertes Dokument öffne, hat jeder Buchstabe so seinen Platz und alles sieht immer korrekt aus und wird auch immer gleich angezeigt. Aus einem „Hallo“ wird kein „Wurst“.

Relevanz
Hier wird es etwas schwerer, weil es die Trägheit und eingeschränkte Wahrnehmung des Menschen mit einkalkuliert – sich zu Nutze macht.

Wie oben kurz erwähnt kann man in einem Bild z.B. diverse Rottöne zusammenfassen. Also alles was da herum liegt wird dann als „das Rot“ angezeigt. So kann ich dir einen ziemlich billigen Sonnenuntergang zeigen, der aus 5 Farben auskommt: Wasseroberfläche gänzlich dunkel, dunkel-blau, Sonne hellgelb leuchtend, und drei Farben für orange bis rot.
Wir alle begreifen trotzdem, dass es ein Sonnenuntergang ist.
Im Video ist es genau Gleiche. Es werden Informationen zusammen gefasst, die dann weniger Datenmüll bedeuten. Himmelblaus, werden gleich dargestellt,… Mini-Details werden ganz ausgelöscht, weil nur kurz sichtbar. (Denkst du beim Autofahren darüber nach, ob das Himmelblau jetzt eher ein helleres oder ein dunkleres ist?)
Im MP3 ist dies auch genau das gleiche. Das kurze hochfrequente Klingen nach dem Gong wird ausgelöscht, weil der Gong schon hörbar war. Bestimmte Frequenzen werden pauschal ausgedünnt, weil wir sie eh kaum hören.

Also bei der Relevanz-Kompression geht es um das „wichtig oder nicht“.
Man merkt es ja meist nicht, aber es fehlt dennoch als Information.

Wichtig:

Aus zu wenig Informationen bekomme ich niemals mehr!!!
Aus den 3 Rottönen bekomme ich niemals die vielen Facetten des Sonnenuntergangs.
Aus dem fehlenden Hochfrequenzanteils des Gonges bekomme ich niemals den kompletten Gong.
Aus den fehlenden Bewegungen eines Videos, die nur die Fliege im Hintergrund machte bekomme ich niemals wieder diese Information zurück.

Was machen wir oder unsere Programme damit?

Viele Programme und auch Web-Plattformen entscheiden ohne deine Meinung, dass sie Bilder in kleineren Abmessungen speichern oder auch dort Detailinformationen ausblenden / die Bilder komprimieren. Also sind sie auch keine wirkliche Datensicherung!

MP3 Streams mit 96 kBit haben einen nicht schlimmen, aber doch hörbaren Qualitätsverlust zu einem 128 oder 256 Stream.

Speichere also deine Dateien zuerst immer so (auf einer Wechsel-HDD oder auf DVD). Nur dann hast du später auch die Originale und keine sparsamen, runtergerechneten Files.

Info: ZIP oder WinRAR packen immer nur verlustfrei (egal, wie hoch der Kompressionsgrad gewählt wurde).
Das heißt, deine gepackten Dateien werden niemals Informationen verlieren! Aus einem Ä in einem Dokument wird niemals ein A, weil wir es ähnlich finden. Der Kompressionsgrad dabei bestimmt nur für die zu packenden Dateien, wie oft das Teil geprüft wird um evtl. noch die letzten Bits zu sparen, weil man 1100101 besser noch einteilen sollte in 1100 und 101 oder anderes.
2) Mehrfaches gepacke bringt nix, weil die Dateien meist wegen der Header größer werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert