WO2001013215A1 - Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts - Google Patents

Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts Download PDF

Info

Publication number
WO2001013215A1
WO2001013215A1 PCT/DE2000/002683 DE0002683W WO0113215A1 WO 2001013215 A1 WO2001013215 A1 WO 2001013215A1 DE 0002683 W DE0002683 W DE 0002683W WO 0113215 A1 WO0113215 A1 WO 0113215A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
speech recognition
unit
computer
commands
Prior art date
Application number
PCT/DE2000/002683
Other languages
German (de)
French (fr)
Inventor
Christoph Bueltemann
Heribert Leissner
Tilo Schlumberger
Detlef ZÜNDORF
Original Assignee
Genologic Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE19938535A external-priority patent/DE19938535A1/en
Priority claimed from DE29914227U external-priority patent/DE29914227U1/en
Application filed by Genologic Gmbh filed Critical Genologic Gmbh
Priority to DE10082416T priority Critical patent/DE10082416D2/en
Priority to AU77694/00A priority patent/AU7769400A/en
Publication of WO2001013215A1 publication Critical patent/WO2001013215A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the invention relates to a device for converting voice commands and / or language texts into keyboard and / or mouse movements and / or texts.
  • the mouse movements are generated by movements of the hand, and a menu item or program command is triggered by pressing the mouse button with the index finger.
  • Automatic speech recognition can be used both to convert spoken language into keyboard commands and / or mouse movements and texts, and to verify the identity of a user.
  • HMM Hiddden-Markow model
  • Each sentence results in a so-called feature vector.
  • the statistical properties of the feature sizes are recorded in the model-based approach by means of distribution density functions with corresponding mean values and variances. These mean values and variances must first be determined in a training phase on the basis of a large number of representative training statements in order to obtain a reference sentence (a model). To recognize an unknown utterance, probabilities are then calculated for the models that represent the words of the vocabulary.
  • the object of the present invention is to provide a device which ensures reliable automatic conversion of speech into keyboard commands, mouse movements and / or text, works efficiently and robustly even in the event of disturbances from background noise and enables the speaker to be reliably identified ,
  • a computer unit with a speech recognition unit converts speech commands or speech texts into keyboard or mouse commands and / or texts by means of automatic speech recognition and speaker identification
  • Form of digital values can be transferred to a computer via the USB interface or another bidirectional interface.
  • Any necessary conversion of the transferred data can be carried out using driver software that runs on the computer or terminal.
  • commands or data can be returned to the user via voice output.
  • Fig. 1 shows a computer unit with a speech recognition unit, a
  • FIG. 2 shows a computer unit with additional USB connections and USB distributor in a top view
  • FIG. 3 shows a computer unit with PCMCIA (Personal Computer Memory Card
  • Fig.4 a computer unit with a speech recognition unit, a
  • Speaker identification a speech generation unit, consisting of a clock generator, a CPU (Central Processor Unit), a command memory and / or data memory, a microphone, a loudspeaker and an analog input and output circuit in plan view.
  • a speech generation unit consisting of a clock generator, a CPU (Central Processor Unit), a command memory and / or data memory, a microphone, a loudspeaker and an analog input and output circuit in plan view.
  • This speech recognition unit (2) is used to convert voice commands or language texts using a microphone (3) in keyboard or mouse commands and / or texts. The converted digital values are then transferred to a computer or terminal via the USB interface (4) or any other bidirectional interface (5) such as a serial RS232 interface.
  • FIG. 2 shows the computer unit (1) with further USB connections (6).
  • this device it is possible to combine the converted voice commands or voice data with other data from the peripheral devices and to forward them via the USB distributor (7). It therefore z. B. spoken the number of a delivery of goods and their product number are scanned.
  • the illustrated computing unit (1) combines the data in accordance with the specifications of the host computer and sends it as a coherent key sequence.
  • Fig. 3 describes a computer unit (1) with a PCMCIA (Personal Computer Memory Card Interface Association) slot (8).
  • PCMCIA Personal Computer Memory Card Interface Association
  • This enables the expansion of the computer unit (1) with a wide variety of PCMCIA cards, such as Ethernet or radio network cards.
  • Fig. 4 shows a computer unit (1) with a speech recognition unit (2), a speaker identification unit (15) and a speech generation unit (9), these consisting of a clock generator (10), a CPU (Central Processor Unit) (1 1), one Command memory and / or data memory (12), a microphone (3), a speaker (13) and an analog input and output circuit (14).
  • a clock generator (10
  • CPU Central Processor Unit
  • 1 1 one Command memory and / or data memory
  • microphone (3) a microphone (3)
  • speaker (13) an analog input and output circuit
  • complex data inputs can first be compiled in a dialog-oriented manner (by means of spoken dialogues by means of voice output) and then sent to the host computer or terminal as a coherent key sequence.
  • a voice signal with a predetermined clock rate for example 100 us, is digitized to convert the voice commands or language texts into keyboard or mouse commands and / or texts by means of automatic voice recognition and speaker identification.
  • the speech signal is changed and / or transformed, and / or upstream algorithms for feature extraction (such as digital filters) are used.
  • the GP's (genetic programs) are additionally and / or exclusively supplied with this signal.
  • the digital signal can be changed and / or transformed in that the phoneme and / or word identification takes place on the basis of neural networks (NN) and the classification result is fed to an NN in the form of digital values.
  • the phoneme or word identification can also be based on fuzzy logic (FL).
  • the classification result is then fed to an FL function in the form of digital values.
  • the classification result of GPs (genetic programs) from the speech signal is used to identify the speaker.
  • the control of a computer mouse and the navigation on the surface of a computer operating system can be carried out by voice control based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic. This makes it possible to create a computer mouse in which the user alternatively enters the operating system commands directly by voice, opens menus, starts programs, or issues control commands without first moving the mouse pointer to the corresponding position and clicking.
  • GP global positioning system
  • the data input and output in the area of logistics can be combined with the voice commands entered via the microphone (3) with the data from other peripheral devices and then transferred as a data stream via the USB interface (4) to a higher-level computer.
  • a higher-level computer For example, in an order-picking process, if an article with a barcode is still provided with a quantity, the user can enter the data in any order.
  • the article number is recorded via the scanner connected to the USB interface (4) and the user speaks the quantity picked either before or after.
  • the system can distinguish between the two types of input and only passes the complete data record a) on when all data is available, b) in a predefined form, e.g. first the article number and then the quantity, further.
  • the transfer of the recorded voice data via the PCMCIA (Personal Computer Memory Card Interface Association) slot (8) and a card inserted therein, e.g. B. a radio modem.
  • PCMCIA Personal Computer Memory Card Interface Association
  • the speech recognition unit (2) it is possible for the speech recognition unit (2) to emulate the keyboard driver.
  • a software runs in the background of the operating system and checks at short intervals ( ⁇ 50msec) whether data arrives at the USB interface (4). These are then implemented in the same system commands that a keyboard driver generates, and via the API (Application Programming Interface) of the operating system either to the currently active foreground application or to a predefined application. This means that no changes need to be made within the target application, since it already responds to keystrokes.
  • the computer unit (1) it is also possible for the computer unit (1) to convert voice commands into keyboard and / or mouse commands by the speech recognition unit (2), which enables voice-controlled operation of a web browser. It is operated in such a way that the spoken word is converted into shortcuts. These shortcuts allow direct activation of a browser function using keyboard shortcuts. This is done using tables and matrices that are created before use.
  • the computer unit (1) can use the speech recognition unit (2) to convert voice commands which enable the voice-controlled operation of an e-mail program. This eliminates the need to use the mouse and write on the keyboard.
  • the device according to the invention also enables voice-controlled operation of a newsreader.
  • Other examples are the voice-controlled terminal emulation Database software, the voice-operated operation of a
  • an ERP system or an accounting system can be operated by means of acoustic operation.

Abstract

The invention relates to a device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts. The aim of the invention is to create a device of this type which ensures a reliable automatic conversion of speech into keyboard commands, mouse movements and/or text, which functions in an efficient and robust manner also in the instance of interferences caused by background noises, and which makes it possible to reliably identify the speaker. To this end, a computer unit (1) comprising a speech recognition unit (2) converts spoken commands or spoken texts input via a microphone (3) into keyboard or mouse commands and/or texts using automatic speech recognition and speaker identification, and transfers them to a computer in the form of digital values via the USB interface (4) or another bi-directional interface (5).

Description

Vorrichtung zur Umwandlung von Sprachkommandos und / oder Sprachtexte in Tastatur- und / oder Mausbewegungen und / oder TexteDevice for converting voice commands and / or speech texts into keyboard and / or mouse movements and / or texts
Die Erfindung bezieht sich auf eine Vorrichtung zur Umwandlung von Sprachkommandos und / oder Sprachtexte in Tastatur- und / oder Mausbewegungen und / oder Texte.The invention relates to a device for converting voice commands and / or language texts into keyboard and / or mouse movements and / or texts.
Es ist bekannt, dass zur Bedienung von Computersystemen entweder eine Tastatur, ein Touch-Screen, und / oder eine Computermaus benutzt wird.It is known that either a keyboard, a touch screen and / or a computer mouse is used to operate computer systems.
Tastaturen als Bedienelement für Computersysteme sind seit den ersten Tagen des PC's und seiner Vorgänger, um 1980, bekannt. Computermäuse werden seit dem Einsatz der ersten grafischen Benutzeroberfläche, eingeführt von der Fa. Apple Inc., um 1986, eingesetzt und verwendet.Keyboards as control elements for computer systems have been known since the first days of the PC and its predecessors, around 1980. Computer mice have been used since the first graphical user interface introduced by Apple Inc. in 1986.
Die Mausbewegungen werden durch Bewegungen der Hand erzeugt, und die Auslösung eines Menüpunktes oder Programmbefehls erfolgt durch drücken mit dem Zeigefinger auf die Maustaste.The mouse movements are generated by movements of the hand, and a menu item or program command is triggered by pressing the mouse button with the index finger.
Die automatische Spracherkennung kann sowohl zur Umsetzung gesprochener Sprache in Tastaturbefehle und / oder Mausbewegungen und Texten, als auch zur Verifikation der Identität eines Benutzers eingesetzt werden.Automatic speech recognition can be used both to convert spoken language into keyboard commands and / or mouse movements and texts, and to verify the identity of a user.
Seit ca. 1950 laufen verschiedene Forschungsvorhaben hinsichtlich Spracherkennungstechniken. Wobei seit 1980 die Erkennungsmöglichkeiten durch die Entwicklung von statistischen Verfahren wie z.B. dem Hiddden-Markow- Modell(HMM) deutlich verbessert wurden. Aus der Literatur (Schukat- Talamazzini, E.G. (1995), Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, Braunschweig) ist bereits bekannt, daß Verfahren der Spracherkennung entweder auf dem Vergleich zwischen abgespeicherten Referenzmustern und der unbekannten Äußerung beruhen oder auf der Beschreibung einzelner Wörter des Vokabulars mittels stochastischer Modelle. Dabei wird eine Äußerung, bestehend aus digitalen Abtastwerten, zunächst in eine Folge von Sprachblöcken vorgegebener Dauer zerlegt, und dann für jeden Sprachblock ein Satz von Merkmalsgrößen berechnet. Jeder Satz ergibt einen sogenannten Merkmalsvektor. Die statistischen Eigenschaften der Merkmalsgrößen werden in dem modellbasierenden Ansatz durch Verteilungsdichtefunktionen mit entsprechenden Mittelwerten und Varianzen erfasst. Diese Mittelwerte und Varianzen müssen zunächst in einer Trainingsphase anhand einer Vielzahl von repräsentativen Trainingsäußerungen bestimmt werden, um einen Referenzsatz(ein Modell) zu gewinnen. Zur Erkennung einer unbekannten Äußerung werden dann für die Modelle, die die Wörter des Vokabulars repräsentieren, jeweils Wahrscheinlichkeiten berechnet.Various research projects on speech recognition techniques have been underway since around 1950. Since 1980, the recognition options have been significantly improved through the development of statistical methods such as the Hiddden-Markow model (HMM). From the literature (Schukat-Talamazzini, EG (1995), Automatic Speech Recognition, Fundamentals, Statistical Models and Efficient Algorithms, Vieweg Verlag, Braunschweig) it is already known that speech recognition methods are either based on the comparison between stored reference patterns and the unknown utterance or on the description of individual words of the vocabulary using stochastic models. In this case, an utterance consisting of digital samples is first broken down into a sequence of speech blocks of a predetermined duration, and then a set of feature sizes is calculated for each speech block. Each sentence results in a so-called feature vector. The statistical properties of the feature sizes are recorded in the model-based approach by means of distribution density functions with corresponding mean values and variances. These mean values and variances must first be determined in a training phase on the basis of a large number of representative training statements in order to obtain a reference sentence (a model). To recognize an unknown utterance, probabilities are then calculated for the models that represent the words of the vocabulary.
Diese statistischen Verfahren wurden durch die Einbeziehung und Kombination mit Methoden neuronaler Netzwerktechnologien erweitert.These statistical methods were expanded by the inclusion and combination with methods of neural network technologies.
All diesen Verfahren und Vorrichtungen ist gemeinsam, dass diese auf einem Host- PC direkt ablaufen müssen, somit diesen stark belasten und die Handhabung dadurch komplizieren daß oftmals hohe Wartezeiten bis zum Abschluss des Erkennungsvorgangs bestehen. Sie benötigen sehr große Ressourcen an CPU- Leistung und Speicher und sind bei der Sprecheridentifizierung unzuverlässig.All of these methods and devices have in common that they have to run directly on a host PC, thus place a heavy load on them and complicate handling by the fact that there are often long waiting times until the recognition process is completed. They require huge resources of CPU power and memory and are unreliable when it comes to speaker identification.
Aus der US-PS 5,659,665 ist es bekannt, daß vordefinierte Sprachkommandos in Tastaturanschlags-Daten umgewandelt und in die Tastaturschnittstelle eingeschliffen werden. Die derzeit auf dem Markt erhältlichen Bedieneinheiten für Rechner und Terminals basieren auf mechanischen Eingabegeräten, bei denen entweder eine Taste gedrückt oder eine Maus bewegt wird. Dies hat den Nachteil, das immer erst diese Art der Bedienung gelernt werden muß, und der Umgang mit Rechnern bzw. Terminals gelernt werden muss, und der Umgang mit Rechnern dadurch weiten Teilen der Bevölkerung verschlossen bleibt.From US Pat. No. 5,659,665 it is known that predefined voice commands are converted into keystroke data and looped into the keyboard interface. The control units for computers and terminals currently available on the market are based on mechanical input devices, in which either a key is pressed or a mouse is moved. This has the disadvantage that this type of operation always has to be learned, and the handling of computers or terminals must be learned, and the handling of computers remains closed to large parts of the population.
Weiterhin sind diese Bedieneinheiten, die durch Schalter, Taster, Tastatur oder Maus realisiert werden, im Gegensatz zur automatischen Sprachein- und Sprachausgabe (gemäß der vorliegenden Erfindung) erheblich fehleranfälliger, störanfälliger und aufwendiger (in der Handhabung) hinsichtlich der Datenein- oder Ausgabe. Darüber hinaus sind bei solchen Systemen immer entsprechende Fähigkeiten und Kenntnisse bezüglich der Funktionsweise und Bedienung (z.B. bei der Tastatur) erforderlich, was oft zu einem erhöhten Zeitaufwand und damit erhöhten Kosten führt. Oftmals ist es auch im eigentlichen Arbeitsprozeß hinderlich, die Augen und Hände vom zu bearbeitenden Gegenstand und / oder Schriftstück zu lösen um die Eingaben mit dem mechanischen Hilfsmittel vornehmen zu können.Furthermore, in contrast to automatic voice input and output (according to the present invention), these control units, which are implemented by switches, buttons, keyboards or mice, are considerably more error-prone, more prone to failure and more complex (in terms of handling) with regard to data input or output. In addition, such systems always require the appropriate skills and knowledge with regard to their functionality and operation (e.g. with the keyboard), which often leads to increased expenditure of time and thus increased costs. Often it is also a hindrance in the actual work process to detach the eyes and hands from the object to be processed and / or a document in order to be able to make the entries with the mechanical aid.
Die Aufgabe der vorliegenden Erfindung besteht nun darin, eine Vorrichtung zu schaffen, die eine zuverlässige automatische Umsetzung von Sprache in Tastaturbefehle, Mausbewegungen und / oder Text sicherstellt, effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert und eine verläßliche Identifikation des Sprechers / -in ermöglicht.The object of the present invention is to provide a device which ensures reliable automatic conversion of speech into keyboard commands, mouse movements and / or text, works efficiently and robustly even in the event of disturbances from background noise and enables the speaker to be reliably identified ,
Zur Lösung dieser Aufgabe wird vorgeschlagen, dass durch eine Rechnereinheit mit einer Spracherkennungseinheit über ein Mikrophon Sprachkommandos bzw. Sprachtexte in Tastatur-oder Mausbefehle und/oder Texte mittels automatischer Spracherkennung und Sprecheridentifizierung umgewandelt und in Form digitaler Werte über das USB-Interface oder eine andere bidirektionale Schnittstelle an einen Rechner übergeben werden.To solve this problem, it is proposed that, by means of automatic speech recognition and speaker identification, a computer unit with a speech recognition unit converts speech commands or speech texts into keyboard or mouse commands and / or texts by means of automatic speech recognition and speaker identification Form of digital values can be transferred to a computer via the USB interface or another bidirectional interface.
Eine eventuell notwendige Umsetzung der übergebenen Daten kann mittels Treibersoftware, welche auf dem Rechner oder Terminal abläuft durchgeführt werden.Any necessary conversion of the transferred data can be carried out using driver software that runs on the computer or terminal.
Über die an diese Einheit angeschlossene Mikrophon-Lautsprecher Kombination, können mittels Sprachausgabe Kommandos oder Daten an den Benutzer zurückgegeben werden.Using the microphone / speaker combination connected to this unit, commands or data can be returned to the user via voice output.
Die vorstehenden Ausführungen werden anhand der folgenden Zeichnungen näher erläutert. Dabei zeigenThe above statements are explained in more detail with reference to the following drawings. Show
Fig. 1 eine Rechnereinheit mit einer Spracherkennungseinheit, einemFig. 1 shows a computer unit with a speech recognition unit, a
Mikrophon, einem USB-Interface oder einer anderen bidirektionale Schnittstelle in Draufsicht, Fig.2 eine Rechnereinheit mit weiteren USB-Anschlüssen und USB-Verteiler in Draufsicht, Fig.3 eine Rechnereinheit mit PCMCIA (Personal Computer Memory CardMicrophone, a USB interface or another bidirectional interface in a top view, FIG. 2 shows a computer unit with additional USB connections and USB distributor in a top view, FIG. 3 shows a computer unit with PCMCIA (Personal Computer Memory Card
Interface Association)-Steckplatz in Draufsicht, Fig.4 eine Rechnereinheit mit einer Spracherkennungseinheit, eineInterface Association) slot in top view, Fig.4 a computer unit with a speech recognition unit, a
Sprecheridentifizierung, eine Spracherzeugungseinheit, bestehend aus einem Taktgenerator, einem CPU (Central Processor Unit), einem Befehlsspeicher und/oder Datenspeicher, einem Mikrophon , einem Lautsprecher und einer Analogein- und -ausgangsschaltung in Draufsicht.Speaker identification, a speech generation unit, consisting of a clock generator, a CPU (Central Processor Unit), a command memory and / or data memory, a microphone, a loudspeaker and an analog input and output circuit in plan view.
Fig. 1 beschreibt eine Rechnereinheit (1 ) mit einer Sprach-erkennungseinheit (2). Diese Spracherkennungseinheit (2) dient zur Umwandlung von Sprachkommandos bzw. Sprachtexten mittels eines Mikrophons (3) in Tastatur- oder Mausbefehle und/oder Texte. Die umgewandelten digitalen Werte werden dann anschließend über das USB-Interface (4)oder eine beliebige andere bidirektionale Schnittstelle (5) wie z.B eine serielle RS232-Schnittstelle an einen Rechner oder Terminal übergeben.1 describes a computer unit (1) with a speech recognition unit (2). This speech recognition unit (2) is used to convert voice commands or language texts using a microphone (3) in keyboard or mouse commands and / or texts. The converted digital values are then transferred to a computer or terminal via the USB interface (4) or any other bidirectional interface (5) such as a serial RS232 interface.
In Fig. 2 wird die Rechnereinheit (1 ) mit weiteren USB-Anschlüssen (6) dargestellt. Mit Hilfe dieser Vorrichtung ist es möglich, die gewandelten Sprachkommandos oder Sprachdaten mit anderen Daten von den Peripheriegeräten zu kombinieren und über den USB-Verteiler (7) weiterzuleiten. Es daher z. B. die Anzahl einer Warenlieferung gesprochen und deren Produktnummer gescannt werden. Die dargestellte Recheneinheit (1 ) fügt die Daten entsprechend der Vorgaben des Host Rechners zusammen und sendet sie als eine zusammenhängende Tastensequenz.2 shows the computer unit (1) with further USB connections (6). With the aid of this device, it is possible to combine the converted voice commands or voice data with other data from the peripheral devices and to forward them via the USB distributor (7). It therefore z. B. spoken the number of a delivery of goods and their product number are scanned. The illustrated computing unit (1) combines the data in accordance with the specifications of the host computer and sends it as a coherent key sequence.
Fig. 3 beschreibt eine Rechnereinheit (1 ) mit einem PCMCIA (Personal Computer Memory Card Interface Association)-Steckplatz (8). Dies ermöglicht die Erweiterung der Rechnereinheit (1 ) mit den verschiedensten PCMCIA-Karten, wie zum Beispiel Ethernet- oder Funknetzkarten.Fig. 3 describes a computer unit (1) with a PCMCIA (Personal Computer Memory Card Interface Association) slot (8). This enables the expansion of the computer unit (1) with a wide variety of PCMCIA cards, such as Ethernet or radio network cards.
Fig. 4 zeigt eine Rechnereinheit (1 ) mit einer Spracherkennungseinheit (2), einer Sprecheridentifizierungseinheit (15) und einer Spracherzeugungseinheit (9), wobei diese aus einem Taktgenerator (10), einer CPU(Central Processor Unit) (1 1 ), einem Befehlsspeicher und/oder Datenspeicher (12), einem Mikrophon (3), einem Lautsprecher(13) und einer Analogein- und -ausgangsschaltung (14) besteht. Mit Hilfe dieser Vorrichtung können komplexe Dateneingaben zuerst Dialogorientiert (durch gesprochene Dialoge mittels Sprachausgabe) zusammengestellt werden und danach als eine zusammenhängende Tastensequenz an den Host-Rechner oder Terminal gesendet werden. Gemäß der erfindungsgemäßen Vorrichtung wird zur Umsetzung der Sprachkommandos bzw. Sprachtexte in Tastatur- oder Mausbefehle und/oder Texte mittels automatischer Spracherkennung und Sprecheridentifizierung ein Sprachsignal mit einer vorgegebenen Taktrate, z.B. 100 us, digitalisiert. Das Sprachsignal wird verändert und/oder transformiert, und / oder vorgeschaltete Algorithmen zur Merkmalsextraktion (wie digitale Filter) werden verwendet. Den GP's (genetischen Programmen) wird zusätzlich und/oder ausschließlich dieses Signal zugeführt. Das digitale Signal kann verändert und/oder transformiert werden, indem die Phonem- und/oder Wort-Identifikation auf der Basis von neuronalen Netzwerken(NN) erfolgt, und das Klassifikationsergebnis einem NN in Form von digitalen Werten zugeführt wird. Die Phonem- oder Wort- Identifikation können auch auf der Basis von Fuzzy Logik (FL) erfolgen. Dabei wird dann das Klassifikationsergebnis einer FL-Funktion in Form von digitalen Werten zugeführt. Zur Identifikation des Sprechers/der Sprecherin wird das Klassifikationsergebnis von GP's (genetischen Programmen) aus dem Sprachsignal verwendet.Fig. 4 shows a computer unit (1) with a speech recognition unit (2), a speaker identification unit (15) and a speech generation unit (9), these consisting of a clock generator (10), a CPU (Central Processor Unit) (1 1), one Command memory and / or data memory (12), a microphone (3), a speaker (13) and an analog input and output circuit (14). With the aid of this device, complex data inputs can first be compiled in a dialog-oriented manner (by means of spoken dialogues by means of voice output) and then sent to the host computer or terminal as a coherent key sequence. According to the device according to the invention, a voice signal with a predetermined clock rate, for example 100 us, is digitized to convert the voice commands or language texts into keyboard or mouse commands and / or texts by means of automatic voice recognition and speaker identification. The speech signal is changed and / or transformed, and / or upstream algorithms for feature extraction (such as digital filters) are used. The GP's (genetic programs) are additionally and / or exclusively supplied with this signal. The digital signal can be changed and / or transformed in that the phoneme and / or word identification takes place on the basis of neural networks (NN) and the classification result is fed to an NN in the form of digital values. The phoneme or word identification can also be based on fuzzy logic (FL). The classification result is then fed to an FL function in the form of digital values. The classification result of GPs (genetic programs) from the speech signal is used to identify the speaker.
Hierzu werden nachstehende Beispiele erläutert:The following examples are explained:
Beispiel 1example 1
Die Steuerung einer Computermaus und die Navigation auf der Oberfläche eines Computerbetriebssystems kann per Sprachsteuerung auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik erfolgen. Damit ist es möglich, eine Computermaus herzustellen, bei der der Benutzer alternativ die Betriebssystemkommandos direkt per Sprache eingibt, Menüs öffnet, Programme startet, oder Steuerkommandos absetzt, ohne erst den Mauszeiger auf die entsprechende Position zu fahren, und anzuklicken. Beispiel 2The control of a computer mouse and the navigation on the surface of a computer operating system can be carried out by voice control based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic. This makes it possible to create a computer mouse in which the user alternatively enters the operating system commands directly by voice, opens menus, starts programs, or issues control commands without first moving the mouse pointer to the corresponding position and clicking. Example 2
Die Datenein- und ausgaben im Bereich der Logistik können die über das Mikrophon (3) eingegebenen Sprachkommandos mit den Daten anderer Peripheriegeräte kombiniert und danach als Datenstrom über das USB-Interface (4) an einen übergeordneten Rechner übergeben werden. Wird zum Beispiel in einem Kommissionierungsprozess ein Artikel der mit einem Barcode versehen ist, noch mit einer Mengenangabe versehen werden, kann der Benutzer die Daten in beliebiger Reihenfolge eingeben. Über den am USB-Interface (4) angeschlossenen Scanner wird die Artikelnummer erfasst und der Benutzer spricht entweder davor oder danach die kommissionierte Menge ein. Das System kann beide Eingabearten unterscheiden, und gibt den kompletten Datensatz a) nur dann weiter wenn alle Daten vorliegen, b) in einer vordefinierten Form, z.b. erst die Artikelnummer und dann die Menge, weiter.The data input and output in the area of logistics can be combined with the voice commands entered via the microphone (3) with the data from other peripheral devices and then transferred as a data stream via the USB interface (4) to a higher-level computer. For example, in an order-picking process, if an article with a barcode is still provided with a quantity, the user can enter the data in any order. The article number is recorded via the scanner connected to the USB interface (4) and the user speaks the quantity picked either before or after. The system can distinguish between the two types of input and only passes the complete data record a) on when all data is available, b) in a predefined form, e.g. first the article number and then the quantity, further.
Beispiel 3Example 3
Im Lagerbereich kann die Weitergabe der erfassten Sprachdaten über den PCMCIA (Personal Computer Memory Cardinterface Association)-Steckplatz (8) und einer darin eingesteckten Karte, z. B. ein Funkmodem, erfolgen.In the storage area, the transfer of the recorded voice data via the PCMCIA (Personal Computer Memory Card Interface Association) slot (8) and a card inserted therein, e.g. B. a radio modem.
Beispiel 4Example 4
Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, daß die Spracherkennungseinheit (2) die Emulation des Tastaturtreibers sicherstellt. Dabei läuft eine Software im Hintergrund des Betriebssystems und prüft in kurzen Abständen (<50msec)ob Daten am USB-Interface (4) ankommen. Diese werden dann in die selben Systemkommandos, die auch eine Tastaturtreiber generiert umgesetzt, und über das API(Application Programming Interface) des Betriebssystems entweder an die derzeit aktive Vordergrundanwendung oder eine vordefinierte Anwendung, gesandt. Dadurch muss innerhalb der Zielapplikation keine Änderung vorgenommen werden, da sie ohnehin schon auf Tastaturanschläge reagiert.According to the device according to the invention, it is possible for the speech recognition unit (2) to emulate the keyboard driver. A software runs in the background of the operating system and checks at short intervals (<50msec) whether data arrives at the USB interface (4). These are then implemented in the same system commands that a keyboard driver generates, and via the API (Application Programming Interface) of the operating system either to the currently active foreground application or to a predefined application. This means that no changes need to be made within the target application, since it already responds to keystrokes.
Eine weitere Zusatzfunktion dieser Software ist die Umsetzung eines gesprochenen Wortes wie z.B. "Datei öffnen" in sogenannte Shortcuts(Kurzbefehle). Diese Shortcuts erlauben das direkte aktivieren einer Funktion über Tastaturkombinationen. Im obigen Beispiel ist dies „Strg + O". Dies geschieht über Tabellen und Matrizzen die vor der Benutzung erstellt werden.Another additional function of this software is the implementation of a spoken word such as "Open file" in so-called shortcuts. These shortcuts allow the direct activation of a function using keyboard shortcuts. In the example above, this is "Ctrl + O". This is done using tables and matrices that are created before use.
Beispiel 5Example 5
Gemäß der er indungsgemäßen Vorrichtung ist es ebenso möglich, daß die Rechnereinheit (1) durch die Spracherkennungseinheit (2) Sprachkommandos in Tastatur- und / oder Mausbefehle umwandelt, welche die sprachgesteuerte Bedienung, eines WebBrowsers ermöglicht. Die Bedienung erfolgt in der Weise, dass die gesprochenen Wortes in Shortcuts(Kurzbefehle) umgesetzt werden. Diese Shortcuts erlauben das direkte Aktivieren einer Browserfunktion über Tastaturkombinationen. Dies geschieht über Tabellen und Matrizzen die vor der Benutzung erstellt werden.According to the device according to the invention, it is also possible for the computer unit (1) to convert voice commands into keyboard and / or mouse commands by the speech recognition unit (2), which enables voice-controlled operation of a web browser. It is operated in such a way that the spoken word is converted into shortcuts. These shortcuts allow direct activation of a browser function using keyboard shortcuts. This is done using tables and matrices that are created before use.
Beispiel 6Example 6
Nach der erfindungsgemäßen Vorrichtung kann die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2) Sprachkommandos umwandeln, die die sprachgesteuerte Bedienung eines E-Mail- Programmes ermöglicht. Dadurch entfällt die Bedienung mit der Maus und das Schreiben auf der Tastatur.According to the device according to the invention, the computer unit (1) can use the speech recognition unit (2) to convert voice commands which enable the voice-controlled operation of an e-mail program. This eliminates the need to use the mouse and write on the keyboard.
Weiterhin wird mittels der erfindungsgemäßen Vorrichtung auch die sprachgesteuerte Bedienung eines Newsreaders ermöglicht. Weitere Bespiele sind die sprachgesteuerte Terminalemulation einer Datenbanksoftware, die sprachgesteuerte Bedienung einerFurthermore, the device according to the invention also enables voice-controlled operation of a newsreader. Other examples are the voice-controlled terminal emulation Database software, the voice-operated operation of a
Tabellenkalkulationssoftware oder die sprachgesteuerte Bedienung eines PPS(Produktion-Planung-Steuerung) Systems.Spreadsheet software or the voice-operated operation of a PPS (production planning control) system.
Ebenso kann die Bedienung eines Warenwirtschaftssystems oder eines Buchhaltungssysteme mittels akustischer Bedienung erfolgen.Likewise, an ERP system or an accounting system can be operated by means of acoustic operation.
Letztlich kann auch bei allen Anwendungen, bei denen eine Bedienung der mechanischen Bedienelemente nicht möglich ist, da z.B. beide Hände für andere Aufgaben benötigt werden, die Vorrichtung Einsatz finden.Ultimately, it can also be used in all applications where the mechanical controls cannot be operated, e.g. Both hands are needed for other tasks, the device will be used.
Vorteil dieser Erfindung ist es, eine Vorrichtung anbieten zu können, die eine zuverlässige automatische Spracherkennung ermöglicht, sich einfach als Peripheriegerät anschalten bzw. einbinden läßt und die bisher übliche mechanische Bedienung einer Rechnereinheit durch die Sprachbedienung ablöst. Dadurch wird die Bedienung und die Anwendung vieler Softwareprogramme stark vereinfacht. Der Lernaufwand für die Rechnerbedienung wird sehr verringert, und die Arbeitabläufe beschleunigt und sicherer, wodurch erhebliche Kosten und viel Zeit gespart wird. It is an advantage of this invention to be able to offer a device which enables reliable automatic speech recognition, can be simply switched on or integrated as a peripheral device and replaces the previously conventional mechanical operation of a computer unit by voice operation. This greatly simplifies the operation and use of many software programs. The learning effort for operating the computer is greatly reduced, and work processes are accelerated and safer, which saves considerable costs and a lot of time.

Claims

Patentansprüche claims
1 .1 .
Vorrichtung zur Umwandlung von Sprachkommandos und / oder Sprachtexte inDevice for converting voice commands and / or speech texts into
Tastatur- und / oder Mausbewegungen und / oder Texte, dadurch gekennzeichnet, daß durch eine Rechnereinheit (1 ) mit einer Spracherkennungseinheit (2) über einKeyboard and / or mouse movements and / or texts, characterized in that a computer unit (1) with a speech recognition unit (2) via a
Mikrophon (3)Sprachkommandos bzw. Sprachtexte in Tastatur-oder Mausbefehle und/oder Texte mittels automatischer Spracherkennung und Sprecheridentifizierung umgewandelt und in Form digitaler Werte über das USB-Interface (4) oder eine andere bidirektionale Schnittstelle (5) an einen Rechner übergeben werden.Microphone (3) voice commands or language texts are converted into keyboard or mouse commands and / or texts by means of automatic speech recognition and speaker identification and transferred to a computer in the form of digital values via the USB interface (4) or another bidirectional interface (5).
2.Second
Vorrichtung nach Anspruch 1 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) zusätzlich noch über weitere USB-Anschlüsse (6) verfügt und damit einen USB-Verteiler(7)realisiert.Device according to claim 1, characterized in that the computer unit (1) additionally has further USB connections (6) and thus realizes a USB distributor (7).
3.Third
Vorrichtung nach einem der Ansprüche 1 bis 2, dadurch gekennzeichnet, daß durch die Rechnereinheit (1 ) die über ein Mikrophon (3) eingegebenenDevice according to one of claims 1 to 2, characterized in that the computer unit (1) inputs the data via a microphone (3)
Sprachkommandos mit den Daten anderer Peripheriegeräte kombiniert werden und danach als Datenstrom über das USB-Interface (4) oder eine andere bidirektionaleVoice commands can be combined with the data of other peripheral devices and then as a data stream via the USB interface (4) or another bidirectional
Schnittstelle (5)an einen Rechner übergeben werden. Interface (5) to be transferred to a computer.
4.4th
Vorrichtung nach einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, daß die Rechnereinheit(l ) über einen PCMCIA (Personal Computer Memory CardDevice according to one of claims 1 to 3, characterized in that the computer unit (l) via a PCMCIA (Personal Computer Memory Card
Interface Association)-Steckplatz (8) zur Aufnahme von Peripheriegeräten, wie z.B.Interface Association) slot (8) for receiving peripheral devices, e.g.
Funknetzwerkkarten verfügt.Wireless network cards.
5.5th
Vorrichtung nach einem der Ansprüche 1 bis 4 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) eine Spracherkennungseinheit (2), einerDevice according to one of claims 1 to 4, characterized in that the computer unit (1) is a speech recognition unit (2), one
Sprecheridentifizierungseinheit(15) und eine Spracherzeugungseinheit (9) beinhaltet, wobei diese aus einem Taktgenerator (10), CPU(Central Processor Unit) (11 ),Speaker identification unit (15) and a speech generation unit (9), which comprises a clock generator (10), CPU (Central Processor Unit) (11),
Befehlsspeicher und/oder Datenspeicher (12), Mikrophon (3), einem LautsprecherCommand memory and / or data memory (12), microphone (3), a loudspeaker
(13) und einer Analogein- und(13) and an analog input and
-ausgangsschaltung (14) besteht.-Output circuit (14).
6.6th
Vorrichtung nach einem der Ansprüche 1 bis 5 dadurch gekennzeichnet, daß die durch die Spracherkennungseinheit (2) die Emulation des Tastaturtreibers ermöglicht wird.Device according to one of claims 1 to 5, characterized in that the emulation of the keyboard driver is made possible by the speech recognition unit (2).
7.7th
Vorrichtung nach einem der Ansprüche 1 bis 6 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 6, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos in Tastatur- und / oder Mausbefehle umwandelt, welche die sprachgesteuerte Bedienung, eines WebBrowsers ermöglicht. Voice commands converted into keyboard and / or mouse commands, which enables the voice-controlled operation of a web browser.
8.8th.
Vorrichtung nach einem der Ansprüche 1 bis 7 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 7, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung eines eMail-Converts voice commands that control the voice-operated operation of an email
Programmes ermöglicht.Programs.
9.9th
Vorrichtung nach einem der Ansprüche 1 bis 8 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 8, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einesVoice commands that convert the voice-operated operation of a
Newsreaders ermöglicht.Newsreaders enables.
10.10th
Vorrichtung nach einem der Ansprüche 1 bis 9 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die SpracherkennungseinheitDevice according to one of claims 1 to 9, characterized in that the computer unit (1) by the speech recognition unit
(2) Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einer(2) Voice commands that convert the voice-operated operation of a
Terminalemulation ermöglicht.Terminal emulation enabled.
1 1.1 1.
Vorrichtung nach einem der Ansprüche 1 bis 10 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 10, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einerVoice commands that convert the voice-operated operation of a
Datenbanksoftware ermöglicht. Database software enables.
12.12th
Vorrichtung nach einem der Ansprüche 1 bis 11 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 11, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einerVoice commands that convert the voice-operated operation of a
Tabellenkalkulationssoftware ermöglicht.Spreadsheet software enables.
13.13th
Vorrichtung nach einem der Ansprüche 1 bis 12 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 12, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einesVoice commands that convert the voice-operated operation of a
PPS(Produktion-Planung-Steuerung)- Systems ermöglicht.PPS (Production Planning Control) - Systems enables.
14.14th
Vorrichtung nach einem der Ansprüche 1 bis 13 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 13, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einesVoice commands that convert the voice-operated operation of a
Warenwirtschaftssystems ermöglicht.ERP system enabled.
15.15th
Vorrichtung nach einem der Ansprüche 1 bis 14 dadurch gekennzeichnet, daß die Rechnereinheit (1 ) durch die Spracherkennungseinheit (2)Device according to one of claims 1 to 14, characterized in that the computer unit (1) by the speech recognition unit (2)
Sprachkommandos umwandelt, die die sprachgesteuerte Bedienung einesVoice commands that convert the voice-operated operation of a
Buchhaltungssystems ermöglicht. Accounting system.
PCT/DE2000/002683 1999-08-13 2000-08-08 Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts WO2001013215A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE10082416T DE10082416D2 (en) 1999-08-13 2000-08-08 Device for converting voice commands and / or language texts into keyboard and / or mouse movements and / or texts
AU77694/00A AU7769400A (en) 1999-08-13 2000-08-08 Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE19938535.1 1999-08-13
DE19938535A DE19938535A1 (en) 1999-08-13 1999-08-13 Conversion of spoken commands into a form for input commands to a computer system
DE29914227.2 1999-08-13
DE29914227U DE29914227U1 (en) 1999-08-13 1999-08-13 Device for converting voice commands and / or speech texts into keyboard and / or mouse movements and / or texts

Publications (1)

Publication Number Publication Date
WO2001013215A1 true WO2001013215A1 (en) 2001-02-22

Family

ID=26054604

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2000/002683 WO2001013215A1 (en) 1999-08-13 2000-08-08 Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts

Country Status (3)

Country Link
AU (1) AU7769400A (en)
DE (1) DE10082416D2 (en)
WO (1) WO2001013215A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104845A1 (en) * 2006-03-10 2007-09-20 Simon Emmanuel Andre Device for controlling a computer by cellphone
CN109947268A (en) * 2018-07-04 2019-06-28 湖北民族学院 A kind of multi-functional expression mouse can be used for intelligent terminal
CN112992134A (en) * 2019-12-16 2021-06-18 中国科学院沈阳计算技术研究所有限公司 Measuring system input method based on off-line voice recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
US5377303A (en) * 1989-06-23 1994-12-27 Articulate Systems, Inc. Controlled computer interface
EP0716373A1 (en) * 1994-12-08 1996-06-12 AT&T Corp. Method and apparatus for including speech recognition capabilities in a computer system
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
US5377303A (en) * 1989-06-23 1994-12-27 Articulate Systems, Inc. Controlled computer interface
EP0716373A1 (en) * 1994-12-08 1996-06-12 AT&T Corp. Method and apparatus for including speech recognition capabilities in a computer system
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104845A1 (en) * 2006-03-10 2007-09-20 Simon Emmanuel Andre Device for controlling a computer by cellphone
CN109947268A (en) * 2018-07-04 2019-06-28 湖北民族学院 A kind of multi-functional expression mouse can be used for intelligent terminal
CN112992134A (en) * 2019-12-16 2021-06-18 中国科学院沈阳计算技术研究所有限公司 Measuring system input method based on off-line voice recognition

Also Published As

Publication number Publication date
AU7769400A (en) 2001-03-13
DE10082416D2 (en) 2001-11-22

Similar Documents

Publication Publication Date Title
DE60125696T2 (en) Universal remote control suitable for receiving voice input
DE60003971T2 (en) Distributed architecture for training a speech recognition system
DE69834553T2 (en) ADVANCED VOICE RECOGNITION SYSTEM WITH AN AUDIO FEEDBACK
DE3337353A1 (en) VOICE ANALYZER BASED ON A HIDDEN MARKOV MODEL
DE69819690T2 (en) LANGUAGE RECOGNITION USING A COMMAND LIKE
EP1239460B1 (en) Providing help information in a speech dialogue system
DE60214850T2 (en) FOR A USER GROUP, SPECIFIC PATTERN PROCESSING SYSTEM
WO2004034241A2 (en) Rapid input device
DE69333762T2 (en) Voice recognition system
WO2001013215A1 (en) Device for converting spoken commands and/or spoken texts into keyboard and/or mouse movements and/or texts
EP1168302B1 (en) Speech recognition system with active standby mode
DE19938535A1 (en) Conversion of spoken commands into a form for input commands to a computer system
DE19851287A1 (en) Data processing system or communication terminal with a device for recognizing spoken language and method for recognizing certain acoustic objects
DE19963142A1 (en) Method to convert speech to program instructions and vice versa, for use in kiosk system; involves using speech recognition unit, speech generation unit and speaker identification
EP1064639B1 (en) Device for reproducing information or executing functions
EP0294657A2 (en) Method and device for voice and contact controlled data and image processing
DE102013002962A1 (en) Speech-assisted keyboard input
Twiefel Robust bidirectional processing for speech-controlled robotic scenarios
DE19746393A1 (en) Dynamic pattern recognition system for communications system
DE102004011426B3 (en) Device for detecting emotion in voice signal for man-machine interface has first function block using fixed processing script that is emotion recognition standard, second function block for supplying output from input using adapted script
DE29914227U1 (en) Device for converting voice commands and / or speech texts into keyboard and / or mouse movements and / or texts
DE10244900A1 (en) Method for the automatic recognition of user commands on a user interface designed as a touchscreen
WO2000077773A1 (en) Method and device for automatic speech recognition, speaker identification and voice output
DE10244722A1 (en) Method and device for computer-aided comparison of a first sequence of spoken units with a second sequence of spoken units, speech recognition device and speech synthesis device
WO2005020211A1 (en) Voice-assisted text input for pre-installed applications in mobile devices

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
REF Corresponds to

Ref document number: 10082416

Country of ref document: DE

Date of ref document: 20011122

WWE Wipo information: entry into national phase

Ref document number: 10082416

Country of ref document: DE

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP