Γενικά πάντως, δεν υπάρχει τρόπος να καταδεικνύεται με πλήρη ακρίβεια ένας διάλογος ή μια συλλαβή. Ούτε το spectrum, ούτε το waveform είναι απόλυτα, και βρίσκω σωστή την απόφαση του jfs να τα βάζει και τα 2. Από τη μία μεριά, ένας διάλογος είναι συχνά σε υψηλότερη ένταση από την υπόλοιπη μουσική επένδυση. Αυτό φαίνεται πιο εύκολα μέσω της κυματομορφής. Από την άλλη μεριά, οι διάλογοι έχουν τις συχνότητες της ανθρώπινης φωνής, και έτσι μπορεί να ξεχωρίζουν σε κάποιες πηγές, από άλλους ήχους, πράγμα που φαίνεται στην φασματομορφή.
Ανάλογα την πηγή, προσωπικά με έχει βολέψει και το ένα, και το άλλο. Αλλά δεν είναι πάντα σίγουρo το ποιο από τα 2 είναι πιο βολικό. Και η φασματομορφή θέλει αρκετά περισσότερη εμπειρία για να την καταλάβει κάποιος, καθώς έχει 3 διαστάσεις, και όχι 2 (Η τρίτη διάσταση είναι το χρώμα). Σε πολύ καθαρές πηγές, οι διάλογοι φαίνονται με μεγαλύτερη ακρίβεια στην φασματομορφή. Αλλά σε πηγές που μιλάνε 2 άτομα, έχει από πίσω θόρυβο, φωνές, ή κραυγές, είναι πιο δύσκολο να την καταλάβει κανείς.
Αν πάντως βρισκόταν κάποια καλή ιδέα που να διαχωρίζει με μεγάλη ασφάλεια τους διαλόγους από τους υπόλοιπους ήχους, θα ήθελα πολύ να την υλοποιήσω σε πρόγραμμα για αυτόματους, ή έστω ημιαυτόματους χρονισμούς.
