Friday, February 24, 2017

Forex Trading Data Mining

Introduction à FX Data Mining Permet de faire une introduction simple et rapide à l'un des champs les plus intéressants aujourd'hui - Data Mining. Il existe un large éventail d'applications de Data Mining. Nous devrions intégrer Data Mining dans nos opérations sur devises. FX, FOREX ou Foreign Exchange FX est le plus grand marché en termes de volume quotidien négocié. Il a trois niveaux principaux de participants: les grands garçons, le niveau intermédiaire et les commerçants simples comme vous et moi. Il a une nature spéculative, ce qui signifie que la plupart du temps nous n'échangons pas de marchandises. Nous nous soucions seulement de la différence et souhaitent acheter bas et vendre haut ou vendre haut et acheter bas. Par des opérations courtes ou longues nous pouvons gagner des pépins. Selon votre volume de trading, la valeur pip peut varier de un cent à 10 et plus. C'est la principale façon de faire de l'argent sur le marché FX (avec Carry Trade, Brokering, Arbitrage et plus). Notez que le marché FX est énorme, mais convient à tous les niveaux de joueurs. Pensez au marché FX comme un supermarché infini avec un nombre infini de produits et de clients, mais il a aussi un nombre infini de caissiers. Cela signifie qu'il y a autant de possibilités pour tous. L'exploration de données et l'apprentissage par ordinateur L'exploration de données est un sous-domaine matures de l'informatique. Il s'agit d'un grand nombre de données et d'une extraction non trivial des connaissances utilisables provenant de quantités massives de données. Son fait par le traitement intelligent des données en utilisant des algorithmes d'apprentissage automatique. L'exploration de données n'est pas seulement CRUD (Créer, Lire, Mettre à jour et Supprimer). Nous avons plusieurs méthodes de Data Mining. Par la présente les méthodes et certaines applications. Classification - classement du courrier électronique comme spam, classement d'une transaction comme fraude. Association - YouTube nous propose de nouvelles vidéos basées sur notre histoire. Amazon suggère plus d'articles lors de la caisse. Clustering - analyse des données non structurées telles que les nouvelles économiques et les opinions pour trouver des groupes communs. Process Mining - examine les journaux des opérateurs d'appels afin de détecter des opérations inefficaces. Text Mining - nouvelles minières ou analyse technique pour la reconnaissance des formes. Algorithmic Trading est une exécution automatisée d'un algorithme de trading. Dans notre cas, l'algorithme de négociation provient de l'exploitation minière. Le commerce automatisé est fait par un roi de langage de programmation. Vitesse et robustesse sont des points clés ici: commerçant humain ne peut pas battre le programme informatique au sujet de ces attributs. Il pourrait être HFT (High Frequency Trading) et de programmation de bas niveau (comme C) ou de négociation à long terme et de programmation de haut niveau (comme Java). Mix Algorithmic Trading avec Data Mining Mixing Data Mining dans Algorithmic Trading est important. La chose la plus importante est les données. Un principe simple indique que si vos données ne sont pas assez bonnes, vos modèles ne seront pas assez bons (GIGO). Il s'agit de créer un modèle, de le mettre en œuvre et de le tester (comme toujours). Actuellement, ce flux est principalement manuel. Logiciel d'exploration de données Il existe de nombreuses options de logiciel libre dans le domaine de l'exploration de données. WEKA est un cadre de Data Mining originaire de l'Université de Waikato, Hamilton (Nouvelle-Zélande). WEKA est écrit en Java et dispose d'une grande API. Aussi, vous avez des implémentations pour la plupart des algorithmes bien connus Machine Learning. Le mélange de bons outils est essentiel. Il y a trop de modèles commerciaux possibles. Lancer une pièce de monnaie est un système de commerce stupide, mais c'est un système commercial. Nous avons besoin de Data Mining pour trouver l'or. De bons outils sont faciles à obtenir si bonne chance avec l'exploitation minière. Si vous cherchez plus d'informations sur les échanges de FX scientifiques votre prochaine étape est d'explorer les outils de Data Mining et les données historiques. Visitez algonell pour plus de détails. Vous pouvez nous trouver sur twitter. Facebook. Google. LinkedIn et WordPress. Analyse des résultats de l'exploration de données Backtesting de l'exploration de données Dans cet article bien jeter un oeil à deux pratiques connexes qui sont largement utilisés par les traders appelés Backtesting et Data Mining. Ce sont des techniques qui sont puissants et précieux si nous les utilisons correctement, mais les commerçants souvent abuser. Par conséquent, bien explorer aussi deux pièges courants de ces techniques, connu comme le problème d'hypothèses multiples et overfitting et comment surmonter ces pièges. Backtesting est juste le processus d'utilisation des données historiques pour tester la performance de certaines stratégies commerciales. Backtesting commence généralement avec une stratégie que nous aimerions tester, par exemple l'achat GBPUSD quand il croise au-dessus de la moyenne mobile de 20 jours et la vente quand il croise au-dessous de cette moyenne. Maintenant, nous pourrions tester cette stratégie en regardant ce que le marché va faire, mais cela prendrait un certain temps. C'est pourquoi nous utilisons des données historiques déjà disponibles. Mais attendez, attendez, je vous entends dire. Ne pouviez-vous pas tricher ou au moins être biaisé parce que vous savez déjà ce qui s'est passé dans le passé C'est certainement une préoccupation, donc un backtest valide sera celui dans lequel nous ne sommes pas familiers avec les données historiques. Nous pouvons accomplir cela en choisissant des périodes de temps aléatoires ou en choisissant de nombreuses périodes différentes pour effectuer le test. Maintenant, je peux entendre un autre groupe de vous disant, Mais toutes ces données historiques juste assis là attendent d'être analysés est tentant n'est-il pas Peut-être qu'il ya des secrets profonds dans ces données juste attendre geeks comme nous pour le découvrir. Serait-il si mal de nous interroger d'abord sur les données historiques, de les analyser et de voir si nous pouvons y trouver des motifs cachés? Cet argument est également valable, mais il nous mène dans une zone chargée de dangers. Le monde de Data Mining Data Mining implique la recherche à travers des données afin de localiser les modèles et de trouver des corrélations possibles entre les variables. Dans l'exemple ci-dessus concernant la stratégie de la moyenne mobile de 20 jours, nous venons de trouver un indicateur particulier, mais supposons que nous n'avions aucune idée du type de stratégie que nous voulions tester lorsque l'exploration de données est pratique. Nous pourrions rechercher à travers nos données historiques sur GBPUSD pour voir comment le prix s'est comporté après qu'il ait croisé beaucoup de moyennes mobiles différentes. Nous pourrions vérifier les mouvements des prix contre de nombreux autres types d'indicateurs ainsi et de voir lesquels correspondent à des mouvements de prix élevés. Le sujet de l'exploration de données peut être controversé parce que comme je l'ai discuté ci-dessus, il semble un peu comme la tricherie ou de prospective dans les données. L'exploration de données est-elle une technique scientifique valable? D'une part, la méthode scientifique dit que l'on devait d'abord faire une hypothèse et ensuite la tester contre nos données, mais d'autre part il semble approprié d'explorer les données d'abord afin de Suggèrent une hypothèse. Donc, ce qui est juste Nous pouvons regarder les étapes dans la méthode scientifique pour un indice à la source de la confusion. Le processus en général ressemble à ceci: Observation (data) Hypothèse Prédiction Expérience (données) Notez que nous pouvons traiter les données pendant les étapes d'observation et d'expérience. Les deux points de vue sont donc justes. Nous devons utiliser des données pour créer une hypothèse raisonnable, mais nous testons également cette hypothèse en utilisant des données. L'astuce consiste simplement à s'assurer que les deux ensembles de données ne sont pas les mêmes Nous ne devons jamais tester notre hypothèse en utilisant le même ensemble de données que nous avons utilisé pour suggérer notre hypothèse. En d'autres termes, si vous utilisez l'exploration de données afin de proposer des idées de stratégie, assurez-vous d'utiliser un ensemble différent de données pour tester ces idées. Maintenant, tournez notre attention sur les principaux pièges de l'utilisation de data mining et de backtesting de façon incorrecte. Le problème général est connu sous le nom de sur-optimisation et je préfère briser ce problème en deux types distincts. Il s'agit du problème de l'hypothèse multiple et du surenchère. En un sens, ils sont des manières opposées de faire la même erreur. Le problème de l'hypothèse multiple consiste à choisir de nombreuses hypothèses simples, tandis que le surenchère implique la création d'une hypothèse très complexe. Le problème de l'hypothèse multiple Pour voir comment ce problème se pose, revenons à notre exemple où nous avons testé la stratégie de la moyenne mobile de 20 jours. Supposons que nous backtest la stratégie contre dix ans de données de marché historiques et voici et devinez devinez quoi Les résultats ne sont pas très encourageants. Cependant, étant des commerçants rugueux et tumble comme nous sommes, nous décidons de ne pas abandonner si facilement. Qu'en est-il d'une moyenne mobile de dix jours Cela pourrait fonctionner un peu mieux, alors laissez-backtest it Nous courons un autre backtest et nous constatons que les résultats ne sont toujours pas stellaires, mais theyre un peu mieux que les résultats de 20 jours. Nous décidons d'explorer un peu et d'exécuter des tests similaires avec des moyennes mobiles de 5 jours et 30 jours. Enfin, il nous arrive de penser que nous pourrions tout simplement tester chaque moyenne mobile jusqu'à un certain point et voir comment ils se comportent tous. Donc nous testons les 2 jours, 3 jours, 4 jours, et ainsi de suite, tout le chemin jusqu'à la moyenne mobile de 50 jours. Maintenant certainement certaines de ces moyennes fonctionneront mal et d'autres fonctionneront assez bien, mais il devra être l'un d'eux qui est le meilleur absolu. Par exemple, nous pouvons constater que la moyenne mobile de 32 jours s'est avérée être le meilleur interprète au cours de cette période particulière de dix ans. Cela signifie-t-il qu'il y a quelque chose de spécial dans la moyenne de 32 jours et que nous devrions être sûrs qu'il fonctionnera bien à l'avenir Malheureusement, de nombreux commerçants supposent que c'est le cas et ils arrêtent leur analyse à ce stade, Ils ont découvert quelque chose de profond. Ils sont tombés dans le piège du Problème d'Hypothèse Multiple. Le problème est qu'il n'y a rien du tout inhabituel ou significatif sur le fait qu'une moyenne s'est avéré être le meilleur. Après tout, nous avons testé près de cinquante d'entre eux contre les mêmes données, alors nous nous attendons à trouver quelques bons interprètes, juste par hasard. Cela ne signifie pas theres rien de spécial sur la moyenne mobile particulière qui a gagné dans ce cas. Le problème se pose parce que nous avons testé des hypothèses multiples jusqu'à ce que nous avons trouvé un qui a fonctionné, au lieu de choisir une seule hypothèse et de le tester. Voilà une bonne analogie classique. Nous pourrions arriver à une seule hypothèse telle que Scott est grand en retournant des têtes sur une pièce de monnaie. À partir de cela, nous pourrions créer une prédiction qui dit, Si l'hypothèse est vraie, Scott sera capable de renverser 10 têtes dans une rangée. Ensuite, nous pouvons effectuer une expérience simple pour tester cette hypothèse. Si je peux retourner 10 têtes dans une rangée il ne prouve pas l'hypothèse. Cependant, si je ne peux pas accomplir cet exploit, il réfute définitivement l'hypothèse. Comme nous faisons des expériences répétées qui ne parviennent pas à réfuter l'hypothèse, alors notre confiance dans sa vérité grandit. C'est la bonne façon de le faire. Cependant, que se passerait-il si nous avions eu 1.000 hypothèses au lieu de seulement celle sur moi étant une bonne flipper de pièce Nous pourrions faire la même hypothèse environ 1.000 personnes différentes. Moi, Ed, Cindy, Bill, Sam, etc Ok, maintenant permet de tester nos hypothèses multiples. Nous demandons aux 1000 personnes de retourner une pièce de monnaie. Il y aura probablement environ 500 qui renverseront les têtes. Tout le monde peut rentrer chez lui. Maintenant, nous demandons à ces 500 personnes de retourner à nouveau, et cette fois, environ 250 feront sauter la tête. Sur le troisième retournement environ 125 personnes flip heads, sur le quatrième environ 63 personnes sont à gauche, et sur le cinquième basculement il ya environ 32. Ces 32 personnes sont tous assez incroyable arent ils ont tous retourné cinq têtes dans une rangée Si nous retournons cinq Plus de fois et éliminer la moitié de la population chaque fois en moyenne, nous finirons par 16, puis 8, puis 4, puis 2 et enfin une personne à gauche qui a retourné dix têtes dans une rangée. Son Bill Bill est une flipper fantabulous de pièces de monnaie Ou est-il Eh bien, nous ne savons vraiment pas, et thats le point. Bill peut avoir gagné notre concours par pure chance, ou il peut très bien être le meilleur flipper de têtes de ce côté de la galaxie Andromeda. De la même façon, nous ne savons pas si la moyenne mobile de 32 jours de notre exemple ci-dessus a bien fonctionné dans notre test par pure chance, ou s'il ya vraiment quelque chose de spécial à ce sujet. Mais tout ce que nous avons fait jusqu'ici est de trouver une hypothèse, à savoir que la stratégie de moyenne mobile de 32 jours est rentable (ou que Bill est une grande flipper monnaie). Nous n'avons pas réellement testé cette hypothèse pour le moment. Alors maintenant que nous comprenons que nous n'avons pas vraiment découvert quelque chose de significatif encore sur la moyenne mobile de 32 jours ou sur la capacité de Bills à renverser des pièces, la question naturelle à poser est ce que nous devrions faire Comme je l'ai mentionné ci-dessus, Est une prochaine étape requise à tous. Eh bien, dans le cas de Bill, vous devriez probablement demander, Aha, mais peut-il retourner dix têtes dans une rangée de nouveau Dans le cas de la moyenne mobile de 32 jours, voulez-vous le tester à nouveau, mais certainement pas contre le même échantillon de données que Nous avons choisi cette hypothèse. Nous choisirions une autre période de dix ans et verrions si la stratégie fonctionnait aussi bien. Nous pourrions continuer à faire cette expérience autant de fois que nous le voulions jusqu'à ce que notre offre de nouvelles périodes de dix ans soit épuisée. Nous nous référons à cela comme hors des tests d'échantillonnage, et c'est la façon d'éviter cet écueil. Il existe différentes méthodes de test, dont l'une est la validation croisée, mais nous n'obtenons pas beaucoup de détails ici. Overfitting est vraiment une sorte de renversement du problème ci-dessus. Dans l'exemple de l'hypothèse multiple ci-dessus, nous avons examiné de nombreuses hypothèses simples et choisi celui qui a le mieux réussi dans le passé. Dans la surfaçage, nous examinons d'abord le passé et ensuite construisons une hypothèse complexe unique qui correspond bien à ce qui s'est passé. Par exemple, si je regarde le taux USDJPY au cours des 10 derniers jours, je pourrais voir que le quotidien se termine: haut, haut, bas, haut, haut, haut, bas, bas, bas, haut. Je l'ai vu Voir le modèle Ouais, ni moi en fait. Mais si je voulais utiliser ces données pour suggérer une hypothèse, je pourrais venir avec. Mon hypothèse étonnante: si le cours de clôture augmente deux fois dans une rangée, puis vers le bas pour une journée, ou si elle descend pour trois jours d'affilée, nous devrions acheter, mais si le prix de clôture monte trois jours d'affilée nous devrions vendre , Mais si elle remonte trois jours d'affilée, puis trois jours de suite, nous devrions acheter. Mais si nous avions utilisé cette stratégie au cours des 10 derniers jours, nous aurions eu raison sur chaque commerce que nous avons fait Le sur-équipage utilise le backtesting et l'exploration de données différemment que les multiples fabricants d'hypothèses ne. L'overfitter ne vient pas avec 400 stratégies différentes pour backtest. Pas du tout Le surfinisseur utilise des outils de data mining pour déterminer une seule stratégie, quelle que soit la complexité, qui aurait eu les meilleures performances au cours de la période de backtesting. Est-ce que cela fonctionnera à l'avenir? Probablement pas, mais nous pourrions toujours continuer à peaufiner le modèle et à tester la stratégie dans différents échantillons (à partir d'échantillons à nouveau) pour voir si notre performance s'améliore. Lorsque nous cessons d'obtenir des améliorations de performance et que la seule chose qui est en hausse est la complexité de notre modèle, alors nous savons que nous avons franchi la ligne en overfitting. Donc, en résumé, nous avons vu que l'exploration de données est une façon d'utiliser nos données de prix historiques pour suggérer une stratégie de négociation viable, mais que nous devons être conscients des pièges du problème de l'hypothèse multiple et overfitting. La façon de nous assurer que nous ne sommes pas la proie de ces pièges est de backtest notre stratégie en utilisant un ensemble de données différentes de celle que nous avons utilisé lors de notre exploration de data mining. Nous nous référons généralement à cela comme hors de l'échantillon d'essai. Un problème avec l'exploration de données est que les commerçants ont tendance à utiliser différents types de filtres pour rechercher un modèle. Le problème avec cela est que n'importe quel signal est composé à partir des différents signaux sinusoïdaux, donc lors de l'application de différents filtres à un signal, nous allons certainement finir avec un modèle. Beaucoup d'études ont été faites sur le modèle de prix, la plupart sont basés sur l'exploration de données, la question sera l'hypothèse que l'avenir reflète le passé, la réponse est peut-être. Nous avons une chance 5050. Le pourcentage peut être augmenté en étudiant ce modèle sur différentes données. Si nous voulons même augmenter ce pourcentage, nous devons savoir quelle est la cause de ce modèle, en connaissant la cause de ce modèle, nous aurions un avantage dans le commerce. Par exemple, je vais faire cette hypothèse, disons que le premier vendredi de chaque mois en raison de la news lot de commerçants ont tendance à quitter leurs métiers dans la matinée avant les nouvelles et entrer de nouveau après les nouvelles, il ya un modèle de vente et Achat à un certain moment. Nous pourrions utiliser cette information à notre avantage en appliquant une sorte de commerce de couverture afin que nous entrons avec les deux acheter et vendre avant les nouvelles. Puis après les nouvelles nous ne vendons que pour qui veulent acheter et didn8217t veulent tenir une position pendant les nouvelles et nous laissons l'achat jusqu'à ce que le prix revienne, cela pourrait être appliqué au taux d'intérêt de la scie, ou une autre configuration 8230 bla bla. C'est juste une théorie. Je l'utilise pour dire que la peur et la cupidité a un temps sur le marché. Donc, ce qui crée les modèles de prix sont la peur et la cupidité, maintenant si nous isoler le modèle et de connaître la cause derrière ce modèle comme dans l'exemple précédent peur de l'actualité ou de régler le compte à la fin du mois. des choses comme ça. Alors nous pourrions en théorie prédire l'avenir les deux premiers post sont copiés à partir de ce site tous les articles de Scott Percival valent la peine de lire Excellent Thread MiniMe Rejoignez-nous télécharger MetaTrader 5 Copyright 2000-2016, MQL5 Ltd. MetaTrader Expert Advisor En raison des caractéristiques uniques De différentes paires de devises, de nombreuses stratégies quantitatives Forex sont conçus avec une paire de devises spécifiques à l'esprit. Bien que cela puisse produire de nombreuses stratégies commerciales rentables, il existe également des avantages à développer des stratégies qui peuvent être échangées à travers plusieurs paires de devises. Cela introduit un élément de diversification qui peut fournir un niveau supplémentaire de protection contre la baisse. Daniel Fernandez a récemment publié un système qu'il a conçu pour le commerce sur chacun des quatre majors Forex. Son objectif était de trouver un système qui aurait produit un historique de 20 ans de négociation rentable sur EURUSD, GBPUSD, USDJPY et USDCHF. Daniel utilise une approche d'exploration de données pour développer une stratégie pour le commerce des quatre majors Forex. Afin de construire son système, Daniel a utilisé son logiciel d'exploration de données pour définir les signaux d'entrée et de sortie qui auraient produit une stratégie commerciale rentable sur chacune des quatre paires de devises au cours des 20 dernières années. Ce qu'il vient avec est une combinaison de trois règles basées sur le prix qui forment la base de sa stratégie de Majors Forex. Daniel8217s Forex Majors stratégie Daniel8217s Forex Majors stratégie est très simple en ce sens qu'il a toujours une position, longue ou courte, dans chacune des quatre paires de devises qu'il trades. Il base tous ses métiers sur les graphiques quotidiens. La stratégie est longue lorsque les trois conditions suivantes sont remplies: La stratégie est courte lorsque les trois conditions suivantes sont remplies: Comme vous pouvez le constater, la stratégie est fondamentalement une tendance optimisée suivant la stratégie. Cela est logique, parce que Daniel déclare au début de son article que la tendance à long terme des stratégies suivantes sont généralement les meilleures stratégies pour le commerce de multiples marchés. Une autre règle que la stratégie de Daniel8217s utilise est une stop-loss basée sur ATR. La perte d'arrêt fixe est fixée à 180 ° C de l'ATR de 20 jours. Si la stop-loss est déclenchée, la stratégie reste hors du marché jusqu'à ce qu'un signal soit généré dans la direction opposée. Les tests indiquent que la réintroduction sur un signal dans la même direction a affecté négativement les performances. Backtesting Performance Les résultats de backtesting que Daniel a inclus dans son post montrent que la stratégie était très rentable. Il a produit un ratio de gain de 45, un facteur de profit de 1,38, et un ratio récompense à risque de 1,68. La plus grande préoccupation de Daniel8217 au sujet de la stratégie était que la période maximale de tirage représentait un temps très long. Selon les chiffres de Daniel 8217, le rendement annuel moyen était de 9,67. Il s'agissait de 16 années rentables, 4 années de perte, et un an qui a fondamentalement cassé même. La meilleure année a été un retour de 37,76, et la pire année a été une perte de 20,2. Daniel note que ce système ne représenterait pas une bonne stratégie autonome en raison de ses rendements par rapport aux tirages maximaux. Cependant, il suggère que ce pourrait être une pièce intéressante d'une plus grande stratégie multi-système.


No comments:

Post a Comment