Scott, T. W. (2003): Instrumentel betingning – beløning. Kapitel 04 IN: Learning and Memory: Basic Principles, Processes, and Procedures (2rd Ed.). Allyn & Bacon, Boston, MA.
Træls, nervøse vaner
Neglebidning, hair-pulling,
Adfærd vi ville ønske vi havde som vaner
Diæt, studere, dyrek motion
Selv-adfærds modifikation
Forsøger at håndtere ovenstående adfærd. Ideen er at tilstræbe at modificere egen adfærd: enten hæmme uønsket adfærd eller reinforcere ønsket adfærd.
Ved laboratorieforsøg er der fundet to elementer, som influererer vaneadfærd: den ene er stimuli der trigger adfærd og den anden er konsekvenser som reinforcerer adfærd.
Adfærd negativ er reinforceret – der kommer en form for positivt outcome. Neglebidning er beroligende, rygning er social aproval og beroligende.
Vaneadfærd associeres også med udløsende stimuli i omgivelserne. Vi skal ryge efter maden, efter mødet, efter pausen. Vi bider negle når vi er nervøse, skal til eksamen.
Den ønskede adfærd er ikke associeret med umiddelbar belønning og reinforceres ikke. Når vi studerer er der lang tid til eksamen, som kan give belønningen. Der er ikke udløsende stimuli i omgivelserne, der trigger positiv adfærd. Jeg trænger ikke til at løbe en tur efter maden.
Så gør således:
Giv dig selv bøder for at ryge, bide negle og køre for stærkt. Og beløn dig selv for at dyrke sport, studere og motionere. Etabler stimuli betingelser der associeres udelukkende med den positive adfærd: hav et fast sted og tid som udelukkende er til motion fx
Det selv-modificerende perspektiv
Er ikke optaget af bagvedliggende årsager som manglende rygrad, motivation eller andet.
Fokuserer på udløsende stimuli og reinforcerende konsekvenser samt objektive betingelser der kan manipuleres til at påvirke adfærd.
Definition og historie
Thorndike og trial-and-error Learning
Inden for den behavioristiske forståelse opfattes læring som udviklet for at organismen kan tilpasse sig til dets omgivelser.
De bagvedliggende mekanismer ved læring skal være universelle og anvendelige på tværs af fylogenetiske scalaer.
Læring finder sted i dyr, der ikke har bevidsthed, hvormed læring ikke nødvendigvis involverer bevidst forsætlighed og refleksion.
Edward Lee Thorndike (1898,1911)
Søgte at observere udviklingen af adaptiv adfærd med henblik på systematisering af involverede principper.
Den mest kendte læringsopgave Thorndike arbejde med er Cats in a puzzle box.
Thorndike placerede katte i en træboks med en dør og trip-mekanisme et sted i kassen. En skjult mekanisme ville åbne døren og tillade at katten kunne flygte. Fx at skubbe til en lille pæl eller hive i en wire fra loftet. Thorndike valgte responser der ikke allerede var i kattens repertoire. Hver gang det lykkedes katten at flygte blev den placeret i kassen for at prøve igen. Læring blev målt i den tid det tog katten at flygte.
Thorndike kaldte kattens forsøg på at flygte trial-and-error, det som vi i dag kender som instrumentel læring. Overtid forsvinder ineffektive forsøg. Én respons bliver mere i front. Adfærden bliver mere repetetiv eller stereotypifiseret.
Thorndike forklarer læring ud fra Law of Effect. Den adfærd som er forbundet med størst tilfredsstillelse bliver forstærket. The Law of Effect er udtryk for udsagnet principle of reinforcement.
Flugtresponsen hos katten kommer under control af omgivelsernes stimuli som er til stede når responsen finder sted à stimuli fra puzzle-boxen. Senere bliver disse stimuli kaldet diskriminative stimuli. De signalerer hvor og hvornår reinforcering er tilgængelig. Dette kan kaldes en instrumentel respons fordi den producerer reinforcering.
Læring
Er iflg. Thorndike en formationen stimulus-respons (S-R) forbindelse fra diskriminative stimulus til den instrumentelle respons og reinforcering er det der betinger eller forstærker denne S-R forbindelse. Belønning udøver sin effekt mekanisk, dvs automatisk og uden bevidsthed.
Katten tænker ikke ’Åhh nu forstår jeg det, når jeg trykker på denne her knap, kan jeg komme ud’ J
Skinner og operant læring
Var engageret i reinforcering som læringsteknik.
Skinner arbejdede med et operant betingningskammer, som dd. Kaldes Skinner-box. Han betingede dyr som rotter og duer.
En begivenhed arrangeres mellem en operant respons , fx en pressing a handle or a bar, og en reinforcer, som fx kan være en foderpille gennem en slisk i kassen. Skinner kaldte det en operant respons i modsætning til Pavlovs begreb betinget respons (CR). Dette understreger også at subjektet skal operere i omgivelserne for at producere responsen. The bar-press-to-food begivenhed skulle lede til forøget tryk på håndtaget, hvilket kaldes en positiv reinforcering. Og uformelt belønningstræning.
Når betingning har fundet sted, kan responsen også fjernes gennem udslukning. Reinforceren udebliver, hvilket skulle føre til en lavere frekvens af respons. Svarer til udslukning i klassisk betingning.
Distinktion mellem instrumentel betingning og operant betingning
Distinktion er signifikant for forskere inden for hver af disciplinerne, men mindre tydelig for udenforstående.
En forskel er at instrumentel betingning bruger discrete? Trials. Subjektet gives adskilte anledninger hvori responsen kan udføres. Fx en trial i en maze og en i en puzzlebox (Er dette korrekt forstået)
I operante studier gives subjektet kontinuer tilgængelighed til responsen. Katten bliver placeret i Skinner-boxen og kan udføre responsen når som helst.
Den instrumentelle tilgang baserer performance på gennemsnit af grupper af subjekters adfærd, mens den operante tilgang anvender enkeltstudier.
En anden forskel som er mere vigtig er, at den instrumentelle tilgang ofte adopterer bestemte teoretiseringer til at forklare læring og ofte teorier som ikke kan observeres. Fx Tolmans kognitive maps, som han menete musene dannede for at finde rundt i en labyrint.
Skinner (operant tilgang) var meget imod denne form for teoretisering og var udelukkende funktionel i sin tilgang. Frekvensen er respons er en funktion af mængden af reinforcering eller af dens forsinkelse eller skema. Kan være matematiske formler.
Studiemetoder
Skinnerbox – operant opgaver
Labyrinter – T- og Y-formede – instrumental opgave
Menneskebabyer – headturning og uroer
Computerspil
Positiv reinforcering
Positiv reinforcering er tilstedeværelsen af en respons-til-reinforcer betingelse.
Betingelsen (Contingency =begivenhed eller betingelse???) er reelt en regel som relaterer performence af instrumentel adfærd med et bestemt outcome, i dette tilfælde en positiv reinforcer. Reinforceren er betinget af performance af en instrumentel respons.
Betingelserne er eksperimentelt styret af forskeren men i virkeligheden kan det være af forældre, læreren, chefen og sågar samfundet. Ved opdragelse gør vi betingelserne eksplicitte, mens rotten i forsøget selv må erfare den.
Kontrolforsøg skal sikre at responsen vi erfarer er på grund af betingelsen og ikke tilfældig.
I kontrolforsøg gives belønning fx tilfældigt, hvilket kan give et billede af hvor stor effekt instrumentelle betingelser i effekt har.
Kontingens betyder blot at handling og outcome følges ad. Dyret trykker på håndtaget og bliver lige bagefter belønnet. Når dette r nonkontingent følges de ikke ad, hvormed reinforceringen bliver mindre.
Reinforceringsvariabler der påvirker tilegnelse
Mængde og kvalitet af reinforcering
Det er et generelt princip, at desto større belønning, desto større performance.
Fx vil børn der får 10 poitn for skoleperformence, performe mere end børn, der får 5 point.
Kvaliteten af belønningen har samme forskel i effekt.
Kontrast effekter
Effektiviteten af en nuværende belønning påvirkes af tidligere belønninger i mængde og kvalitet.
Negativ kontrast er når man går fra en bedre til en dårligere belønning.
Positiv kontrast er når man går fra mindre til en større belønning.
Dette kan også gøre dig gældende med kvaliteten af belønning fx vand eller sukker i kunstig brystvorte.
Antyder en sammenligning mellem en gammel og en ny reinforcer.
Effekten kan reduceres ved at skabe et delay mellem skift i belønning, så at sige at subjektet glemmer den tidligere belønning.
Drive
Er et emotionel behov eller trang efter en given belønning.
Appetetiv drive gøres ved foof-deprivation en periode inden forsøget. Drive forøger responsen til en relevant belønning. Rotter der fx er depriveret fra føde 22 timer før forsøget løber væsentligt hurtigere i trædehjulet end rotter der kun er depriveret i 4 timer.
Social interaktion er en glimrende reinforcerer. Isolation kan skabe drive for social interaktion. Desto længere social deprivation, desto større opmærksomhed.
Forskelle i mængden og kvaliteten påvirker ikke læringen men motivation for at opnå belønningen.
Hulls inplementerede motivation i læringsteori som vanestyrke.
Schedules of reinforcement
Reinforcering kan finde sted ved hver respons men kan også finde sted nogle gange.
Kontinuer reinforcering er når belønning finder sted ved hver respons. Partial reinforcering er når belønning finder sted til forskelligt definerede tider, fx efter 10 responser, forskudt i tid, med forsinkelse o. lign.
Når en ny betingning skal finde sted er det mest effektivt med kontinuer reinforcering eftersom kan skabe forvirring hvis ikke hver respons belønnes. Fx kan rotten tro, at den skal prøve andre strategier.
Partial reinforvering giver det resultat at den er mere persistent ved udslukning end kontinuer.
Fixed-ratio schedule – mest effektiv.
Fixed-interval schedule
Variable-ratio schedule
Variable-interval schedule
Delay of reinforcement
Belønning umiddelbart efter en respons er ikke overraskende mest effektiv.¨
Delay – forsinkelsen i reinforcement effekten svarer til CS-US interval-effekten i klassisk betingning. Det er grænsefællesskabet i associativ læring der vægtes.
Delayed-reward effekter er dels at subjektet kan komme til at foretage flere responser og dermed have svært ved at adskille hvilken respons var den korrekte, hvilket selvfølgelig giver forsinkelse i læringen. En anden effekt kan ære at responsen glemmes fordi der går for megen tid.
Selv-kontrol
I forsøgene kan der indsættes mulighed for flere responsen. Der kan fx sættes to håndtag ind i skinner-boxen hvor det ene skal trykkes en gang og dte andet to. Dette kan også sammenkobles med forskelle i belønning hvor den ene er stor og den anden er lille. Subjektet vil fortsat vælge den hurtigste eller største belønning.
Selv-kontrol kan undersøges ved at subjektet kan vælge mellem en lille eller en stor belønning, hvor den lille belønning kommer hurtigere mens den store belønning kommer langsommere.
Dette vil afhænge af mængde og delay. Hvis der går for lang tid eller belønningen er for lille, vil det kunne påvirke impulsivitet.
Alder er også en faktor.
Sekundær reinforcering
Primær reinforcer er en organismens biologiske behov som sult og tørst, overdreven varme eller kulde, smerte.
Sekundær reinforcer er en neutral stimulus som er blevet parret med en primær reinforcer og har tilegnet sig kapaciteten at reinforcere selv. Fx en tone som er parret med mad og som på afstand kan fungere som reinforcer for en instrumentel respons for at trykke på barren.
Sekundær reinforcering kaldes også betinget reinforcering.
Lyder som klassisk betingning og målet er også at associere en neutral stimulus med en ubetinget (reinforceren) stimulus. Følger samme principper som klassisk, skal fx rebetinges og jævnligt associeres med US for at fortsat at udvise CR.
Betinget reinforcering kan være tokens som belønning som senere kan byttes til belønning (Elviras stjerner).
Chimpanser der får poker chips – værdsat og stjal fra hinanden.
Token reinforcering blev brugt i forsøg på plejehjem hvor ældre fik tokens for at huske hverdagsting på plejehjemmet. Deltagerne var bedre end kontrolgruppen.
Social reinforcering
Social reinforcering for mennesker kan være værdsættelse, opmærksomhed, fysisk kontakt, ansigtsudtryk fra forældre og lærere og har en stor kontrol over vores adfærd.
Ros kan give bedre performance – surprise!!!
Opmærksomhed kan også rettes mod en bestemt ønsket adfærd mens uønsket adfærd ignoreres, hvilket reinforcerer den positive adfærd.
Bliver af nogle forskere betragtet som en primær reinforcer hvilket kan forklare dens store effekt.
Reinforceringsteorier
Der er mange teorier om hvorfor reinforcerere virker reinforcerende. Sandheden skal nok findes i flere af grundene.
Reinforcere som stimuli
Drive reduktion
Hulls drive-reduction theory (1943) postulerede, at reinforcere er stimuli som reducerer drives baseret på biologiske behov. Teorien giver god mening i forhold til det foregående og hænger godt sammen med desto større og bedre belønning, desto større respons.
Men der er også reinforcere der ikke har nogen åbenlys sammenhæng med drive reduktion, fx tokens, point og endda penge. Men her kommer betinget reinforcering ind. Stimuli kan måske få sekundær reinforceringsegenskaber gennem association med primære biologiske reinforcere.
Hulls teori har haft enorm indflydelse på læringsteori, men adskillige tilfælde af læring uden umiddelbar drive reduktion fandt frem.
Sukker og behov for trøst/omsorg var eksempler fundet med dyr. Først forsøgtes drive reduktionsteorien udviddet med flere former for drives fx nysgerrighed og achievement motiver, men det menes bedre at redefinere.
Incitaments motivation
Udviklet af Sheffield, Crespi og Tolman – The theory of incentive motivation.
Reinforcere er incitamenter som udløser respons. Det vil sige det modsatte af drive reduktion. Reinforcere forøger drives. Sukker arouser fx kroppen.
Studier af reinforcer priming viser forskellen mellem drive reduktion og incentive motivation.
Når en mus gives en foderpille inden den går ind i labyrinten løber den hurtigere.
Et problem med teorien er, at den instrumentelle respons nogle gange vil virke selvom der ikke længere er et incitament.
Hjerne-stimulering
Reinforcere som stimuli i denne 3. version søger et underliggende fysiologisk grundlag for reinforcering. Olds og Milner opdagede, at stimulering af den retikulære formation i rottens hjerne virkede reinforcerende. Rotterne blev trænet til bar-pressing respons hvor elektrisk stimulering blev givet som reinforcerende stimulus. Stimulering af hypothalamus, somer involveret i regulering af motivation relateret til sult, tørst og sex virkede godt som reinforcering. Kunne tyder på en almindelig sti (kredsløb) for reinforcering i hjernen.
Efterfølgende studier har dog vist, at andre hjerneområder er involveret i forskellige former for reinforcere fx opiate stoffer og alkohol.
Men hjernestimulering som reinforcer adskiller sig fra konventionelle reinforcere. Deprivation er ikke nødvendig. Respons ophørte dog hurtigt efter at stimulering ophørte. Konventionel reinforcering virker længere.
Reinforcere som adfærd
Det er også muligt at tænke på reinforcere som adfærd eller aktiviteter i stedet for stimuli som oven for. Det er ikke maden der er reinforcerende men det at spise. Dette åbner op for en mangfoldighed af mulige reinforcere.
David Premack (1962, 1965) mener, at adfærd kan rangeres efter individuel preæference. Nogle typer adfærd er højt værdisat mens andre er mindre.
Kan observeres ved at se sandsynligheden for at den enkelte adfærd initieres.
Premack principle er at higher-probability aktivitet vil reinforcere lavere-sandsynligheds aktiviteter. Chokoladespisning vil reinforcere motion.
Demonstrete i to eksempler.
Rotter der ved deprivation af vand og at løbe i et motionshjul, vil vælge motionshjulet frem for vand.
Forsøg med som er inddelt efter primær præference for hhv. slik og pinball machine. De to præferencer betød, at børn med primær præference for slik brugte meget tid på pinball for at opnå belønning i form af slik og omvendt for dette modsatte tilfælde.
Reinforcere som Strengtheners
Reinforcering betragtes som belønning, men betyde at styrke i sin oprindelige anvendelse af Thorndike og Hull.
Reinforceren styrker associationen mellem de diskriminative stimuli og den instrumentelle respons. Foderpillen styrker associationen mellem barren og det at trykke på den ??
Nutidig teori understøtter dette.
Reinforcere er stimuli af signifikans for organismen. Reinforcere skal producere neural arousal som muligt hjælper hukommelses konsolidering. Iflg hukommelseskonsolideringsteori skal en læringsoplevelse skabe tilstrækkelig aktivering af bestemte områder i hjernen.
Reinforcere som information
Det er ikke altid der er en reinforcer som er tydelig, kan blot være information om hvor noget er korrekt eller ej.
Biofeedback er et eksempel på den informationelle rolle ved reinforcering.
Så hvad er reinforcering
I nogle tilfælde er reinforcering en signifikant stimulus som organismen skal lære om overlevelse, i andre sammenhænge er det incitamentsmotivation og i 3. information. Der er generel accept af at det ikke er en entydig besvarelse.
Reinforcere er hændelser som udløser affektive reaktioner af behag og ubehag, giver information om verden og stimulerer bestemte neurale aktiviteter.
Er reinforcering nødvendig for læring
Ikke altid.
Tolman Honziks forsøg med mus i labyrint. 3 grupper; belønnede dagligt, ingen belønning og belønning efter 11 dage à latent læring. Musene har lært labyrinten at kende men viser det først når de får brug for det.
Kritik af anvendelse af reinforcering
- Reinforcering kritiseres for at være manipulerende. At give eller tilbageholde belønning er udtryk for kontrol.
- En anden kritik er at nogle former for adfærd bør udvises uafhængigt af om de belønnes eller ej. Ud fra en forventet norm. Skinner og andre tilhængere af behaviorismen kommenterer hertil, at vores adfærd i forvejen er kontrolleret af dens konsekvenser. Vi er bare ikke bevidste om det. Forældre, kammarater og arbejdspladser anvender belønning og sanktioner som kontrol. Selv når det ikke er eksplicit, giver mennesker sig selv ros eller følelser af selv-værd.
- En 3. kritik er at reinforcering er en underminering af indre motivation. Eller en indre motivation til at performe i sig selv. Den ydre motivation kommer af belønning mens den indre kommer af aktiviteten i sig selv. Forsøg med små skolebørn der tegner, hvilket antages at være indre-motiveret, viser at børn der bliver belønnet for tegning stopper med at tegne eller reducerer aktiviteten. Det er bredt anerkendt at belønning underminerer indre motivation. Disse såkaldt skadelige effekter ved ydre motivation kan dog forklares inden for reinforceringsteori. Det at de holder op med at tegne kan være udtryk for en negativ kontrast. Efter at være blevet belønnet for tegning er det ikke længere interessant hvis den indre motivation opleves mindre end den ydre. MNF kommentar: Selvværd – Jesper Juul – Jeg er god fordi jeg gør det og det og ikke fordi jeg er mig i mig selv.
- En sidste kritik går på effektiviteten af reinforcering, som til tider kan fade med tiden. Dette ses et svar på i Tolmans latent læringsforsøg, hvor læringen er latent indtil den skal anvendes. Kritikken besvares af dem som anvender adfærdsmodifikation med, at anvendelsesmetoder ofte er midlertidige indtil mere indrestyrede motivationsfaktorer kan overtage. Og ydre belønning er trods alt bedre end at opgaver ikke bliver løst. Det er nok ikke mange der reelt oplever lyst forbundet med at slå græsset etc. MNF: Hvad med værdier – er det det der menes med præfererede aktiviteter. Kan man ikke netop forestille sig at vi gør ting for at leve op til bestemte normer – det er vel grundlæggende i vores samfund.
Responslæring
Shaping
Når vi vil træne en adfærd der ikke er tilstede i individet, hvordan kan dette så reinforceres?
Reinforcering af en respons som nærmer sig den ønskede adfærd. Step for step belønnes adfærd der kommer tættere og tættere på targetadfærden.
Chaining
Instrumentel betingning kan anvendes til at konstruere en sekvens af handling hvor dt først er efter den sidste sekvens at belønningen finder sted. En teori er at hver respons fungere som diskriminativ stimulus for den næste sekvens og dermed fortsætter. En anden mulighed kan være at hver respons fungerer som sekundær reinforcer.
Begrænsninger ved responslæring
Ikke alle responser kan modificeres gennem reinforcvering. Nogle kan kun modificeres gennem klassisk betingning, reflekser mens nogle frivillige bevægelser kun kunne modificeres gennem reinforcering.
Species-soecific begrænsninger der er nogle arter der ikke kan læres bestemte responser. Eksempel med en gris, af elver af skinner, der ikke kunne lære at samle mønter op i en sparegris. Den blev ved med at rode rundt i mønterne med trynen. Dette betragtes som species-soecific da denne adfærd var typisk for grisen og ikke kunne ændres.
Diskriminativ stimuluskontrol
Det er vigtigt at vide hvornår organismen skal respondere. En diskriminativ stimulus (Sd) signalerer tilgængeligheden af en reinforcer. I press-bar situationen, kan det være en tone eller et lys, som signalerer at reinforveringsbetingelsen er i effekt. Respons under Sd reinforceres. Så bar-pressing vil kun producere mad mens Sd tonen er tilstede. (Er det i virkeligheden ikke en udvidelse af Skinner-boxen. Han opererer da ikke med dette i sit forsøg?).
Stimulus-kontrol refererer til betingning som opstår ved tilstedeværelsen af diskriminativ stimulus i modsætning til fravær. Responsen bringes under kontrol af stimulussen. Disse stimuli kan være kontekstuelle stimuli i tid og sted. Rygning på bestemte tider og steder.
Generalisering og diskrimination
Generalisering
Når respondering er trænet med tilstedeværelsen af Sd vil lignende præsenterede stimuli generaliseres. De similære Sd er ikke lige så stærke som den oprindelige. Det vil sige de fører ikke lige så ofte til respons. Dette kan forklare hvorfor transfer af læring ikke altid kan finde sted fra en situation til den næste.
Stimuli i en ny situation er forskellige fra den oprindelige og derfor mindre effektive til at vække en respons.
Diskrimination
Diskriminationstræning er det modsatte af generalisering. I denne træning er respons reinforceret ved tilstedeværelsen af Sd men disse responser er ikke reinforceret ved tilstedeværelse af SΔ.S-delta. Denne stimulus signalerer at reinforveringsbetingelsen ikke er i effekt. Fx kan en dues pecking belønnes når en rød lampe er tændt med ikke en blå. Et barn kan reinforceres ved ros for at lave sine lektier når mor er tilstede men ikke af far.
Diskriminationstræning har den effekt at den begrænser generalisering kun til de stimuli der ligner den diskriminative stimulus. Metoden kan give kraftige emotionelle reaktioner i form af frustration.
Errorless diskriminationstræning reducerer emotionelle reaktioner. SΔ præsenteres så det er mindre sandsynligt at der kommer en respons til den. Lidt snyd – indikationer på det rigtige svar…
Hvad er lært i Instrumentel betingning?
Response-reinfocer learning
Det åbenlyse svar på hvad der læres i instrumentel betingning er, at responsen (bar-press) med reinforceren (foderpille). Organismen performer responsen for at opnå belønningen.
Respons forekommer at være under enorm kontrol af reinforceringen. Destor større og bedre belønning desto mere performance. Mætning af drifter fører til reduktion i respons.
Responce-reinforcer teori forudsiger, at forandringer i belønningen øjeblikkeligt vil føre til forandringer i responsen. Studeret ved forandring af belønningsforventninger. Dette er set i Tolman og Honziks latente læringsforsøg, hvor rottens adfærd afhænger af dens forventnigner – den vil løbe hurtigere eller langsommere afhængigt af dens forventninger om belønning.
Men adfærd er ikke altid så sensitiv til forandringer i belønningen.
Response-reinforcer teorien accepterer, incitamentssteorien for reinforcering.
Stimulus-respons læring
Teoretikere som Thorndike og Hull mente, at en forbindelse mellem de diskriminative stimuli og responsen var tillært. Reinforceren agerer for at betinge denne association, men er i sig selv ikke en del af den tillærte sekvens!
Den stærkeste eviden for stimulus-respons teorien er forsøg, hvor responsen er blevet adskilt fra den reinforcerende konsekvens og er blevet en automatisk reaktion på stimulus. Fx kan den instrumentelle respons til tider persistere selvom belønningen er frit tilgængelig. Denne effekt kaldes The Protestant Ethic effectà Belønning bør være tjent gennem hårdt arbejde!
Ses ved forsøg med både rotter og 6 årige børn. Ved bar-press betingning, hvor de efter betingninger har fri adgang til hhv. forderpiller for rotterne og marmorkugler for børnenes vedkommende, bliver rotterne ved med at gå hen og bar-presse inden de spiser.
I andre studier viser det sig, at respons ikke ændrer sig i takt med at reinforceringsbetingelser ændrer sig. Tolman lavede i et tidligt forsøg med mus, hvor de først blev trænet i en labyrint og efterfølgende kom over i en boks hvor de fik elektrisk chok i gulvet. Når de kom over i labyrinten gik de blot rundt som de oprindeligt var betinget til (Kan dette ikke være kontesktafhængige stimuli?).
Det er ikke altid at organismer opfører sig fuldstændig efter S-R teori. Habit slips fx
Stimulus-reinforcer læring
Typisk sekvens i instrumentelle trials:
diskriminativ stimulus à respons à reinforcering
Pga af dette parres Sd med belønningen! Pavlovsk betingning kan forekomme mellem stimulus og reinforceren (CS og US). Sd udløser herefter en betinget respons (CR) i forventning om en belønning. Den betingede respons skal i denne sammenhæng forstås som en betinget arousal, frygt eller excitement, hvilket forøger performance af den instrumentelle respons.
Evidens for stimulus-reinforcer teori
Kommer fra studier, hvor en pavloviansk trænet CS er præsenteret under en instrumentel opgave. FX en tone, CS betingt med mad, US vil forøge bar-pressing reinforceret af mad. Bar-pressing vil forøges når tonen lyder.
Konklusion
I stedet for at udelukke nogen, siger forfatteren, at de hver især bidrager til forståelsen af instrumentel læring.