Parole et Son

Catalogue des cours de Télécom SudParis

Code

IGSF SIC 4508

Niveau

M1

Graduate

Graduate

Semestre

Spring

Domaine

Signal et Communications

Programme

Programme Ingénieur

Langue

Français/French

Crédits ECTS

4

Heures programmées

45

Charge de travail

90

Coordonnateur(s)

Département

  • Communications, Images et Traitement de l'information

Equipe pédagogique

Acquis d'apprentissage

A l'issue du module, les étudiants seront capables de :
- appréhender et de comprendre les principes des approches de traitement numérique des signaux audio et de parole,
- de décrire les principaux algorithmes de reconnaissance de parole automatique et de vérification automatique du locuteur,

- de décrire les principaux algorithmes de synthèse de parole à partir du texte, les algorithmes de compression de parole et du son mais aussi d'en citer leurs principales applications par exemple dans les services liées à la téléphonie en général, la e-santé, le e-commerce...
- mettre en oeuvre des algorithmes d'égalisation des échos et de rehaussement du signal de parole
- mettre en œuvre des logiciels libres de reconnaissance de la parole (du type KALDI, HTK)


- être capable d'orienter de manière globale le choix d'une solution numérique de traitement de parole ou de son correspondant aux besoins d'un service donné.

Contenu

- Codage de la parole
- Production et perception de la parole. Les niveaux acoustique et phonétique. - Phénomènes de masquage. Sons voisés et non voisés.
- Modélisation, analyse et synthèse du signal de parole.
- Codage par prédiction linéaire.
- Quantification vectorielle. Codeurs CELP. Codage à bas débit.
- Le codeur GSM à 13 kbits/s.
- Formats audio et codage perceptuel
- MP3, MPEG4, CD, DVD, SACD, DAT, DCC …
- Reconnaissance automatique de la parole
- Modèles de Markov cachés
- Extraction des paramètres
- Problème de compression, débruitage, robustesse à l’environnement
- Reconnaissance de parole multi-locuteurs, grand vocabulaire
- Vérification du locuteur
- Reconnaissance de parole distribuée, standards ETSI
- Application aux serveurs de reconnaissance vocale
- Synthèse de parole à partir du texte (“Text-to-Speech”)
- Synthèse par prédicteur linéaire, problèmes de stockage, de qualité, TTS distribuée
- Messagerie unifiée (dictée ou écoute d’e-mails), aide aux personnes malvoyantes.
- Séparation de sources
- Mélanges instantanés, convolutifs, sous-déterminés...
- Méthodes de séparation, analyse en composantes indépendantes
- Application aux signaux sonores.

Prérequis

Connaissances de base en théorie du signal (échantillonnage, corrélation, représentation spectrale …)

Mots-clés

Analyse / synthèse de la parole, reconnaissance de la parole, codage de la parole à bas débit, formats audio, codage perceptuel, séparation de sources

Formule de l'évaluation

La validation de cette UV est basée sur la réalisation en binôme de 3 TP (TP1, TP2, TP3) notés
Note finale = Moy(TP1, TP2, TP3)

Compétences CDIO

Compétences principales

  • 1.1.1 - Mathématiques (y compris statistiques)
  • 2.1.2 - Modélisation
  • 3.2.4 - Communication électronique et multimédia
  • 4.5.4 - Intégration matériel-logiciel
  • 4.8.6 - Ecosystème de l'innovation, réseaux, infrastructure et services
Fiche mise à jour le 10/07/2018