Teilprojekt C06

Projekt C06: Technisch unterstütztes Erklären von Stimmcharakteristika

Eine Stimme kann als heiser beschrieben werden oder auch als klar, tief oder brüchig. Wie sich die verschiedenen Stimmcharakteristika anhören und wie eine Stimme in all ihren Facetten dargestellt werden kann, sind Fragen, mit denen sich die Wissenschaftler*innen im Projekt C06 beschäftigen. Die Linguist*innen und Informatiker*innen entwickeln ein intelligentes System, das Expert*innen einsetzen können, um Laien das Phänomen Stimme erklären zu können. Dafür generiert das KI-System Sprachproben, bei denen derselbe Inhalt von unterschiedlichen Stimmen gesprochen wird. Diese können auch für klinische Linguist*innen in der Diagnostik hilfreich sein, um beispielsweise Stimmcharakteristika der Parkinson-Krankheit zu erkennen. Indem ebenfalls aufgezeigt wird, wie das System Unterschiede zwischen Stimmen misst, wird die Modellierung von Stimme transparenter und interpretierbar. Das Ziel des Forschungsteams ist es, herauszufinden, ob Menschen mit Hilfe des KI-Systems eine Stimme besser nachmachen und beschreiben können.

Forschungsgebiete: Informatik, Linguistik

Projektleitung

Prof. Dr. Reinhold Häb-Umbach

Mehr zur Person

Prof.Dr. Petra Wagner

Mehr zur Person

Mitarbeiter*innen

Frederik Rautenberg

Mehr zur Person

Jana Wiechmann, M.Sc.

Mehr zur Person

Hilfskräfte

Marc Deegen, Universität Paderborn

Lisa Kalinitschenko, Universität Bielefeld

Alexandra Schmidt, Universität Bielefeld

Publikationen

Technically enabled explaining of voice characteristics

J. Wiechmann, T. Glarner, F. Rautenberg, P. Wagner, R. Haeb-Umbach, in: 18. Phonetik Und Phonologie Im Deutschsprachigen Raum (P&P), 2022.

PDF

On Feature Importance and Interpretability of Speaker Representations

F. Rautenberg, M. Kuhlmann, J. Wiechmann, F. Seebauer, P. Wagner, R. Haeb-Umbach, in: ITG Conference on Speech Communication, 2023.

arXiv

Explaining voice characteristics to novice voice practitioners-How successful is it?

J. Wiechmann, F. Rautenberg, P. Wagner, R. Haeb-Umbach, in: 20th International Congress of the Phonetic Sciences (ICPhS) , 2023.

Re-examining the quality dimensions of synthetic speech

F. Seebauer, M. Kuhlmann, R. Haeb-Umbach, P. Wagner, in: 12th Speech Synthesis Workshop (SSW) 2023, 2023.

Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics

F. Rautenberg, M. Kuhlmann, J. Ebbers, J. Wiechmann, F. Seebauer, P. Wagner, R. Haeb-Umbach, in: Fortschritte Der Akustik - DAGA 2023, 2023, pp. 1409–1412.

PDF

Alle Publikationen anzeigen

C06.mp4 — In diesem Video stellen die Projektleiter*innen ihre Sicht von Ko-Konstruktion vor (auf Englisch).