Serie: Kennen Sie die Pragmatis-PL/SQL-Libraries?
Techinfo 1: pragmatisConvert.phonetischDeutsch
Pragmatis entwickelt und pflegt für den Einsatz in Datenbankwendungen eine PL/SQL-Bibliothek, mit kleinen Helferlein und mächtigen Logikbausteinen.
Der erste Teil einer Serie behandelt ein "deutsches" SOUNDEX. SOUNDEX dient zur phonetischen Ähnlichkeitssuche. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Wie die meisten PL/SQL- und SQL-Entwickler wissen, liefert die originale Oracle-Funktion SOUNDEX für die deutsche Sprache oft nur unbefriedigende Ergebnisse. Eine speziell für die deutschsprachige Ähnlichkeitssuche entwickelte Funktion steht nun mit PragmatisConvert.phonetischDeutsch zur Verfügung. Diese Funktion ist z.B. zur Konsolidierung von Adressstämmen hilfreich, weil damit ähnlich klingende Einträge als potentielle Duplikate isoliert werden können.
Grundlage Kölner Phonetik:
Die Kölner Phonetik (auch Kölner Verfahren) ist ein phonetischer Algorithmus, der Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnet, den phonetischen Code. Ziel dieses Verfahrens ist es, gleich klingenden Wörtern denselben Code zuzuordnen, um bei Suchfunktionen eine Ähnlichkeitssuche zu implementieren. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Die Kölner Phonetik ist, im Vergleich zum bekannteren Russell-Soundex-Verfahren, besser auf die deutsche Sprache abgestimmt. Sie wurde 1969 von Postel veröffentlicht.
(Quelle http://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik)
Beispiel:
SQL> select soundex('jaroschewitz') as jaroschewitz, soundex('jaroszewicz') as jaroszewicz from dual;
JAROSCHEWITZ JAROSZEWICZ
------------ -----------
J623 J622
SQL> select pragmatisconvert.phonetischDeutsch('jaroschewitz') as jaroschewitz, pragmatisconvert.phonetischDeutsch('jaroszewicz') as jaroszewicz from dual;
JAROSCHEWITZ JAROSZEWICZ
-------------------------------------------------------------------------------- --------------------------------------------------------------------------------
07838 07838
Hier scheitert z.B. SOUNDEX, obwohl die Aussprache im Deutschen gleich wäre!
Der erste Teil einer Serie behandelt ein "deutsches" SOUNDEX. SOUNDEX dient zur phonetischen Ähnlichkeitssuche. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Wie die meisten PL/SQL- und SQL-Entwickler wissen, liefert die originale Oracle-Funktion SOUNDEX für die deutsche Sprache oft nur unbefriedigende Ergebnisse. Eine speziell für die deutschsprachige Ähnlichkeitssuche entwickelte Funktion steht nun mit PragmatisConvert.phonetischDeutsch zur Verfügung. Diese Funktion ist z.B. zur Konsolidierung von Adressstämmen hilfreich, weil damit ähnlich klingende Einträge als potentielle Duplikate isoliert werden können.
Grundlage Kölner Phonetik:
Die Kölner Phonetik (auch Kölner Verfahren) ist ein phonetischer Algorithmus, der Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnet, den phonetischen Code. Ziel dieses Verfahrens ist es, gleich klingenden Wörtern denselben Code zuzuordnen, um bei Suchfunktionen eine Ähnlichkeitssuche zu implementieren. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Die Kölner Phonetik ist, im Vergleich zum bekannteren Russell-Soundex-Verfahren, besser auf die deutsche Sprache abgestimmt. Sie wurde 1969 von Postel veröffentlicht.
(Quelle http://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik)
Beispiel:
SQL> select soundex('jaroschewitz') as jaroschewitz, soundex('jaroszewicz') as jaroszewicz from dual;
JAROSCHEWITZ JAROSZEWICZ
------------ -----------
J623 J622
SQL> select pragmatisconvert.phonetischDeutsch('jaroschewitz') as jaroschewitz, pragmatisconvert.phonetischDeutsch('jaroszewicz') as jaroszewicz from dual;
JAROSCHEWITZ JAROSZEWICZ
-------------------------------------------------------------------------------- --------------------------------------------------------------------------------
07838 07838
Hier scheitert z.B. SOUNDEX, obwohl die Aussprache im Deutschen gleich wäre!
verwenden das Kontaktformular http://www.pragmatis.de/kontakt/kontaktformular.
(#PL/SQL, #Pragmatis-Libraries)