måndag 19 december 2016

Belöningsbaserad inlärning/träning del 3, att jobba belöningsbaserat

Så då är vi faktiskt äntligen där ;) på vad jag faktiskt gör och inte bara bakgrundspratande.
Belöningsbaserat går ut på att individen får belöning som är så hög/motiverande att individen vill utföra arbetet. På häst är det oftast så att det är få andra saker som vi människor har som är så högt motiverande och lätta att ge utöver godis, så på häst handlar belöningsbaserad träning i stort sett alltid bara om godis-baserat. På hund tex så kan man med många hundar även belöna med lek, jakt, socialt kel och liknande då det många gånger kan ligga högt i hundens motivation.


Spanska skritten som bara den består utav flera moment (hov upp, lyft, hålla och så på båda benen +på båda benen och på det att göra det under gång). Mino har här gjort den rätt länge så att den är bra befäst men eftersom jag varit inkonsekvent och belönat slarvigare steg när det väll blivit befäst så har vi tappat mkt utav lyftet i hur rörelsen egentligen ska se ut... 
(Mino är på dessa bilder dräktig med Räka)

Sedan har vi då klickern. Jag kommer använda ordet klicker fastän man inte behöver använda en mackapär (oftast liten plastlåda med knapp som ger ett metalliskt ljud), det går bra att även göra tex ett ljud/kommando. Fördelen med klicker-mackapären jämför med att göra ett ljudkommando är att det oftast går fortare att trycka på knappen som man redan står beredd med fingret på än att utföra ljudet. Stor annan fördel är även att klickern alltid låter i stort sett lika dant. Ett röstkommando däremot kan påverkas mkt av att man har bråttom att få ur sig ljudet, sitt humör, personen osv och kan därför bli värdeladdat. En känslig individ kan då reagera på om ljudkommandot inte låter lika dant.

Klicker är själva mackapären, men den teoretiska grunden man använder är vad som kallas shaping. Shaping handlar om att stegvis bygga beteenden, vilket man använder klickern till att göra effektivare. Genom att stegvis bygga beteenden kan man lättare plocka fram nya beteenden och precisera mycket finare exakt vilket beteende man vill belöna.
För tex spansk skritt så belönar jag i början bara att jag ser en antydan i muskulaturen att benet är på väg upp. När hästen börjar förstå att det är den muskelsammandragningen som ger belöning kommer de ofta börja ta i mer (och lyfta hela benet) då de är belöningssugna och ger därför nästa beteende gratis, gör hästen inte det kan man när muskelsamandragningen blivit befäst fördröja belöningen så att hästen blir frustrerad och då ofta tar till att prova mer beteenden och rättså troligen därför komma lyfta benet. Efter det så är det att man bitvis steg för steg ökar dessa krav så att ben-lyftet blir högre och högre, med mer och mer framåt sträckning, att hålla det i luften i längre och längre durationer osv. Så får man göra på båda benen och sedan får man tillägga att göra det under rörelse i skritt. Ni ser hur ett slutgiltigt beteende byggs fram stegvis? Detta är shaping. Det finns dock olika vis att göra denna inlärning, jag återkommer dock till andra exempel på det senare.


Här är första passet Mino mötte bollen och den fina fördelen med att jobba enligt klickermetoden, det går oftast snabbt och lätt att utveckla nya beteenden! Här sätter vi samman två saker hon redan förstått/kan, att gå in i bollen (vilket inte tog Mino många klick att lära sig då hon överlag inte är rädd för saker) och den spanska skritten, för att få att hon slår på bollen med hoven. Lägg märke till hur jag inte använder tryck i grimma utan att gå in i bollen är här nog belönat att hon söker upp bollen själv för att få godis och när hon kommer i skedet att gå emot bollen så kan jag ge mitt kommando för spanska skritten och få kombinationen av två redan inlärda beteenden som är mitt slutgiltiga mål.

Man kan alltså jobba med shaping utan att sedan använda klicker. Klickern har dock flera fördelar och effektiviserar träningen oftast väldigt mycket. För de som inte vet vad en klicker är så är det en liten plast-grej med en knapp på som trycker två metalldelar emot varandra så att ett ljud hörs. Så här kan tex en klicker se ut. Fördelen med att använda en klicker och inte bara fritt belöna är att klickern är lätt att trycka på i exakt den sekund djuret gör rätt och på så vis precisera väldigt väldigt fint exakt vad som var rätt. Som i mitt exempel ovan med den spanska skritten med att jag belönar muskelsammandragnignarna i rörelsen till att lyfta frambenet, att få till den belöningen genom muntligt ljudque eller bara handgriplig belöning är väldigt svår då det blir svårt att få den precisisa tajmningen. Fördelar är även att det får hästen att fokuser på klickern och inte fullt så mkt direkt på godiset eller dig, klickern låter alltid desamma så att ens egna humör i rösten inte värderar belöningen och att det därför även blir lätt för djuret att byta mellan tränare.

Vad man gör är att man betingar/värdeladdar själva klick-ljudet väldigt högt. Grunden i klicker-träning är att ett klick ALLTID ska ge belöning. Klickern är ekvivalent med belöning. Hyffsat vanligt sett att göra det är att i början bara trycka på knappen och trycker upp godis i munnen på hästen, det gör att den lär sig associera ljudet med godis (tänk Pavlo's hundar här). Har inte individen förstått det så kommer klickerljudet inte betyda något och man kommer missa på den precision klickern kan ge. Klickern betyder godis och man måste alltid ge godis vid klickandet, annars blir det utebliven belöning (negativ bestraffning) och klickern kommer sluta betyda belöning. Gör man ibland så så blir det osäkerhet, frustration och motivationen tappas.


Hov upp emot bollen.

Fördelen med att jobba med klickern är att man då kan få ett avstånd mellan det att klickern låter och att godis kommer och du har ändå belönat i precis rätt sekund. Klicket kan även i sig bli belöning för vissa då det blir så högt värdeladdat (Mino får ibland bråttom och skiter i att komma och ta godis utan gör bara beteenden i jakt på klickern och göra matte glad, hon har väldigt bra arbetsmoral och eagerness to please!).

Vad man sedan gör är att man jobbar med en hel rad olika tekniker för att bygga beteenden i tex kedjor. Många beteenden är egentligen en hel rad beteenden som man byggt samman. Man jobba på detta vis på att lägga in mer och mer moment innan det att individen får belöningen.

Om vi går tillbaka till mitt exempel med den spanska skritten så skulle man tex även kunna lärt in den med hov-target (target är att trycka/röra specifik kroppsdel emot något) och försvåra hovtargeten allt mer så att man får den stora rörelsen. Då lär man först in att på mkt nära avstånd bara röra hov mot target för att få klick och sedan placerar man targeten svårare och svårare, man får då större och större rörelse och kan sedan befästa in rörelsen i sig och få bort targeten. Jag har delvis i senare skede använt detta på Mino för att få tillbaka mer rörelse i den spanska skritten, det är rättså lätt sätt att få mer lek och aktivitet i hästen att jaga spöet med benen. 
Ett annat vis man skulle kunna klicka för att få spansk skritt hade kunnat vara att så kallat free-shaping/shape:a. Det gäller att ha en häst som är "klickerklok" dvs är van vid klickern och har förstått principen i att tänka själv och erbjuda rörelser. Klassiskt sett så vill de flesta hästmänniskor inte att sina hästar ska ta initativ och erbjuda rörelser utan att de ska vara väldigt passiva. I klickerträning vill man att hästen själv ska tänka och erbjuda vad som kommer den naturligt. Free shaping är att man bara "fångar" en rörelse/beteende man ser, utan att sätta upp scenario för det. Man klickar och har man en klickervan häst så kommer den då börja tänka "vad gjorde jag nu för att få den godisen" och börja erbjuda beteendet/beteenden den precis gjort för att få klicket igen. Man kan då få upp repetioner av samma beteende att klicka för det och på så vis få nya beteenden att jobba med.


Klick och godis varje gång man gör antydan på rätt.

Inga kommentarer:

Skicka en kommentar