Spørgsmål:
Er det en god idé at forbinde datapunkter på et plot for at øge læsbarheden i dias?
Lyndon White
2014-09-22 13:38:44 UTC
view on stackexchange narkive permalink

Jeg har en graf med punkter fra et sæt eksperimenter, som jeg vil præsentere på et dias.

Den vigtige information i grafen er både værdierne for punkterne og mere markant, at de grønne punkter er over de blå punkter.

scatter

Det er hurtigt og nemt at få min tegningsramme (matplotlib) til at forbinde hvert punkt til det næste:

connected scatter

Det bør være ret klart for alle, at forholdet mellem punkter ikke forventes at være lineært.

Jeg troede, jeg kunne ønske at sætte linjen i for at gøre det klart, at den ene er under den anden. Det kan være svært at se punktmarkørerne på projektorskærmen.

Er det en god ide? Forøger visning af plot på denne måde synligheden af ​​dem til præsentation, eller gør det faktum, at linjer i sig selv er ret meningsløse distraherer for meget?

Publikums bekymringer:

Hele præsentationen er beregnet til kandidatstuderende på ingeniørstuderende og skal være enkel. Mens de normalt ville have kapacitet til at håndtere komplicerede plots, er indholdet af præsentationen kompliceret nok til, at jeg ikke vil distrahere dem med noget, der kan spilde tanketid. Jeg har allerede afvist box-and-whiskers-plot som for kompliceret; dette er et plot af middelværdierne for disse data.

Når man ser på det nu, måske forbedrer linjerne i sig selv præsentationen, det gør gradienten mere tydelig.
Dette spørgsmål ser ud til at være uden for emnet, fordi det handler om datavisualisering, ikke den akademiske verden. Dette kunne migreres til [stats.se]
Det handler om den bedste måde at præsentere dias på for et publikum. Jeg tror, ​​det er et emne for begge. (Selvom jeg har det fint, hvis det migreres). Jeg foreslår måske, at der er yderligere bekymringer, der vil blive rettet mod accadmia, der ikke vil være fokus på CV. Såsom gamle svage projektorer, farveblindhed hos publikum osv. Selvom disse kunne overvejes på CV, er det i spidsen for folks sind her på den akademiske verden
Efter at have været igennem "datavisualisering i akademisk sammenhæng er emnet?" diskussion allerede om [dette spørgsmål] (http://academia.stackexchange.com/questions/20322/surface-plots-vs-colour-maps) (hvilket er endnu mindre specifikt for den akademiske verden, og hvor "Lad åbne" stemmer var et bestemt flertal), ser det ud til, at dette er perfekt om emnet.
Hvis noget, ville spørgsmålet være en god pasform til [grafisk design.SE].
Et FYI: Ved første øjekast bemærkede jeg overhovedet ikke farveforskellen og troede, jeg kiggede på et datasæt.
Kunne du normalisere X-aksen (så den vandrette afstand er lige langt fra hinanden) og tegne lodrette linjer ved hver af x-værdierne, der har et punkt, der krydser både det grønne og det blå?
Faktisk ikke så meget grafisk design som [Brugeroplevelse] (http://ux.stackexchange.com).
Hvad med at vise forskellen? Det vil sige, plot diff = grøn - blå.
Hvis du tilføjer linjer, bedes du IKKE spline dem, hvis du tilføjer linjer. Jeg har set nogle forfærdelige tilpassede kurver genereret, som forkert gengiver de underliggende data.
Annoncepublikums bekymringer: Vær opmærksom på, at du altid er et godt eksempel, når du taler med studerende. Pas på ikke at sende beskeden, "dette forenklede ikke-videnskabelige plot er den virkelige aftale".
Otte svar:
Peter Jansson
2014-09-22 13:47:34 UTC
view on stackexchange narkive permalink

Tegning af linjerne indebærer en kontinuerlig sammenhæng mellem parametrene. Så hvis du kan forvente kontinuitet, er det fint at forbinde punkterne. Et andet punkt at gøre er at undgå farver, der svarer til det grønne og blå, du har valgt. En af grundene til, at forskellen er svær at se i det første spredningsdiagram, skyldes farve. Prøv at eksperimentere med farver, der kontrasterer bedre, og dit problem kan løses ved blot at ændre farver for et eller begge datasættene.

Ud over farver kan du også vælge forskellige markører (f.eks. Trekanter og cirkler). Forudsat at figuren på et eller andet tidspunkt offentliggøres som sort / hvid, vil de forskellige markører give den skelneinformation.
@jayann OP siger klart, at det drejer sig om præsentationsglas, der vises i farve. Så så længe du vælger farver, som de fleste mennesker kan skelne mellem (tænk på farveblinde folk!), Går jeg med en enkelt form; plot med mange former ser ofte rodet ud.
Måske ville det være bedre at bruge forskellige stilarter (solid / stiplet).
Og test farverne på en projektor, inden du holder præsentationen! Det blå og grønne, du har brugt her, er ikke kun sandsynligt, at det er svært at skelne, men også svært at se overhovedet.
Jeg forventer kontinuitet og monotonicitet (faktisk garanterer jeg monotonicitet), jeg forventer * ikke * at lineær interpolation er meget præcis undtagen mod den rigtige ende. Således siger du, at det er fint i dette tilfælde. Siger du, at det er godt i dette tilfælde, eller bare "ikke dårligt"? Nye farver er blå og rød (og en tredje linje i en orange)
Wrzlprmft
2014-09-22 16:18:40 UTC
view on stackexchange narkive permalink

Vedrørende det generelle spørgsmål

Ja, det er acceptabelt at forbinde punkter, selvom kun diskrete datapunkter findes i teorien, og der ikke er noget kontinuum. Hvis der er grund til at forvente, at nogen fortolker din visualisering fejlagtigt på grund af dette, eller hvis du kan forvente, at publikum er kræsne over dette, skal du tilføje sætningen (på dias eller talt):

Linjer er kun til øjenvejledning.

Vedrørende dit specielle diagram

  • Som allerede bemærket er farverne ikke velvalgte (og vil sandsynligvis se endnu dårligere ud, når de projiceres) . Jeg anbefaler at bruge farver med en stærk kontrast, for eksempel en hvid eller næsten hvid baggrund og til dataene 1) sort eller næsten sort, 2) ren rød. (Vær dog forsigtig med ren grøn, da de fleste projektorer vil skrue den op - mørkegrøn er bedre.)
  • Afhængigt af hvor vigtigt du betragter visse ting:
    • Brug en logaritmisk skala (eller lignende) til abscissen ( x -aks). Denne måde klynger punkter ikke så meget for lille x og vil være lettere at læse.
    • Brug en logaritmisk skala til ordinaten ( y -aks ). På denne måde bliver det eksponentielle forhold, du nævnte, tydeligt med det samme. Dog vil punkterne for små x komme endnu tættere på hinanden.
Hvis der kun findes diskrete punkter _kan_, er en linje en dårlig idé, fordi den indebærer, at mellemliggende værdier ville være gyldige. Hvis kun diskrete punkter blev målt, er det en god idé. Fra din første linje kan jeg ikke helt fortælle, hvad du mente, men jeg formoder, at du og jeg er uenige ...
@Floris: Ja, det er vi uenige om. Jeg benægter dog ikke risikoen for at vildlede nogen og anbefaler at tage modforanstaltninger, hvis det er sandsynligt, at dette sker.
@Floris Jeg er uenig. I nogle sammenhænge kan det være gyldigt (en linje repræsenterer ikke altid _extrapolation_ - nogle gange kan den repræsentere _connection_). Se for eksempel Parallelle koordinater http://syntagmatic.github.io/parallel-coordinates/.
@PiotrMigdal - interessant værktøj. Bemærk, at i så fald er der en tydeligt mærket kategorisk akse, og linjens hensigt er eksplicit at linke - da kategorierne har uafhængige Y-akser (antal cylindre, forskydning osv.), Som fjerner al mulighed for at fortolke linjen som " mellemliggende punkter kan eksistere og vil have denne mest sandsynlige værdi ".
Raphael
2014-09-22 15:53:16 UTC
view on stackexchange narkive permalink

Du siger, at du vil sammenligne dine datasæt kvalitativt , det er klart, hvilket der er "bedre". Da de ser ud til at følge lignende funktioner og er tæt på hinanden, kan normalisering være et godt værktøj.

Overvej for eksempel dette plot:

enter image description here
Bemærk, hvordan standardindstillingerne for Mathematica 10 ender med at skabe et langt klarere plot.

At vide, at begge funktioner er grundlæggende 1 / √n du kan gange værdien med, siger , n:

enter image description here

Nu er "vinderen" mere klar.

Lignende effekter kan opnås ved (andre) aksetransformationer, afskæringer, zoom osv. Du skal dog være gennemsigtig med, hvilke transformationer du anvender, fordi du nemt kan ende med et plot, der siger "A er tre gange så god som B!" selvom den reelle forskel var minimal.

Jeg citerer spørgsmålet (fed af mig): "Den vigtige information i grafen er både ** værdierne af punkterne ** og mere markant, at de grønne punkter er under de blå punkter."
@Wrzlprmft Jeg læste "mere markant". Da det ikke kan forventes, at et plot understøtter mere end en historie på én gang, når det kommer til stykket, besluttede jeg at fokusere på det (tilsyneladende) mere betydningsfulde punkt, som OP forsøger at komme med. (Også folk har en tendens til at overvurdere vigtigheden af ​​de værdier, de får. )
Punkt taget, selvom det er negativt at bruge for mange plot (og dermed skifte plot for ofte).
@Wrzlprmft Absolut! Mit råd ville være "skru numrene, ingen bryr sig!" i de fleste tilfælde. (Hvis din præsentation handler om energien i Higgs-bosonen, er alle interesserede.) Det hele afhænger af den historie, du vil fortælle; Jeg finder de fleste historier, der fokuserer på at vise lister over (angiveligt) imponerende tal eller formler, ret kedelige. Men ymmv, selvfølgelig.
Fremragende punkt "lad et billede gøre et punkt". Jeg ser det krænket ofte.
dmckee --- ex-moderator kitten
2014-09-23 05:12:09 UTC
view on stackexchange narkive permalink

Jeg vil bringe partikelfysikpraksis til bordet og sige aldrig connect-the-prikker. Du skal heller ikke køre splines gennem data. Kør meningsfuld passer gennem dataene eller intet.

Disse regler afspejler forståelsen i den disciplin, at individuelle punkter kan have en betydelig fejl eller usikkerhed forbundet med dem, og læseren skal se dataene in toto uden at fokusere på individuelle uregelmæssigheder. Hvis du ved, at dataene ikke kan have disse problemer, så afslapper disse regler sandsynligvis ikke meget skade.

Så hvad kan du gøre.

  1. Brug mere visuelt markerede markører. En kombination af form, udfyldning og farve (med så farveblind venlig en palette som du selvfølgelig kan) giver læseren flere måder at tilslutte sig forskellen.

  2. Brug en forskellige tegninger (normaliseret, anomali fra teori, linearisering af magtlove osv.). Dette er, hvad Raphael foreslog. At finde disse kan være lidt af en kunst.

  3. Hvis du har en velbegrundet teori (eller endda et godt sæde i buksemodellen), skal du tegne pasningslinjer: de afspejler automatisk hele datasættet (godt!).


Nogle punkter på grundtegningen af ​​din figur.

  1. Gråt den grå baggrund. Det gør kun data sværere at læse og får Tufte til at græde.

  2. Brug af udfyldte cirkler til begge serier er en måde at forårsage maksimal visuel forvirring på.

Floris
2014-09-23 04:03:50 UTC
view on stackexchange narkive permalink

Til visningsformål er en glat kurve den mest logiske ting at bruge. Der er nogle gode spline-tilpasningsrutiner, der giver dig mulighed for at skabe en pasform, der kan begrænses for at minimere krumning (i processen mangler punkter, der ikke helt ligger på den glatte kurve), eller du kan bare øje dataene og komme op med en rimelig pasform (til visning - ikke til analyse).

Jeg brugte kun et par minutter på dette, men kom med følgende:

enter image description here

Dette er grundlæggende et overlay af et Excel-plot, som jeg oprettede (hvilket gjorde akserne usynlige) - ved hjælp af en simpel 4-parametermodel:

enter image description here

For de blå og grønne kurver, jeg fandt parametre

  blå greenA 0.8 0.8B 1.0 1.0 C 1.0 0.5D .05 .03  

Naturligvis da du har rådata og matplotlib, du skal vide, hvordan du passer bedre, men dette fungerer godt.

Generelt kan jeg godt lide at kun vise så meget information, som der er brug for på et plot. Hvis punktet er "dette er en hurtigt henfaldende kurve og grønt er over blå", ville jeg helt sikkert udelade nettet og måske endda de fleste af tallene (kør X-aksen fra 0 til 100 med kun to etiketter, og Y-aksen fra 0 til 1).

Jeg tror, ​​at dine data sandsynligvis ikke bliver negative - så jeg vil bestemt gerne rette den X-akse.

Hvis du vil gør yderligere punktet "vi målte disse data", så det er en OK ting at gøre det at lade punkterne være på grafen såvel som glat pasform. Jeg ville overveje at tilføje fejlbjælker for at vise, at pasformen er god - og at punkterne er dårlige.

Igen - du vil gøre det, så informationen er "kun hvad du har brug for". Min personlige præference ville være sådan:

enter image description here

Så færre flåter på akserne, men tilføj en forklaring (jeg kalder dem "blå" og "grøn", men du skal bruge et mere meningsfuldt navn) og mærke akserne - tal alene er ikke nok.

For mig at ikke have point på plottet fjerner den eksperimentelle karakter og får det til at se ud som om resultaterne er langt stærkere end de er.
@Oxinabox - men for mig antyder en "doodle" med meget få kryds på grafen (mit nederste plot) det modsatte - nemlig at resultaterne er _svagere_. Men det er derfor, jeg sagde - "Det afhænger af det budskab, du vil formidle." Inkluder eksperimentelle punkter (og fejlfelt), hvis de føjes til historien - medtag dem ikke, hvis de ikke gør det.
hmm ja, måske ... http://tex.stackexchange.com/questions/74878/create-xkcd-style-diagram-in-tex
@Oxinabox - ja: xkcd er en stor kilde til "omtrentlige" plot, og tætheden af ​​etiketter fortæller en historie. Mit yndlingseksempel: [Ballmer peak] (http://xkcd.com/323/). Høj tæthed af etiketter på X ("meget smal top"), slet ingen etiketter på Y ("hvordan måler du programmeringsfærdigheder")
MathJax understøttes ikke i Academia.SE. Du kan skrive en ligning i almindelig tekst eller bruge en webservice [som denne] (http://www.codecogs.com/latex/eqneditor.php) til at generere et billede af din ligning (som jeg gjorde her)
Davidmh
2014-09-23 00:47:02 UTC
view on stackexchange narkive permalink

Gitre er en forældet fossil, der ikke længere skal bruges. Tilbage i dagene hjalp de med at lave plottene og gjorde det også lettere at manuelt hente dataene fra grafen. I dag er det ikke længere nødvendigt, da tabeller med dataene er tilgængelige andre steder.

Og hvis og når de er nødvendige, skal de være så lidt påtrængende som muligt. Din gråblå baggrund er bare for tung.

enter image description here enter image description here

Når det er ude af vejen, kan du prøve en logskala for x-aksen, som mange point akkumuleres nær 0:

enter image description here

Jeg synes her er ret klart, at blå altid er større end grøn. Uanset om det er godt at tilføje en linje eller ej, er det et spørgsmål om smag:

enter image description here

Efter min mening og som en generel regel vil jeg sige, at linjerne er acceptable så længe "vrikken" skyldes funktionens faktiske form og ikke på grund af støj. Det vil sige, at når der tilføjes flere punkter (tager flere målinger) ikke ændres formen på kurven væsentligt (eller vi forventer ikke, at den skal).

"tabeller med data er tilgængelige andre steder." Hvis det kun var sandt ... Jeg arbejder meget med gitre (jeg producerer endda referenceplotter på fint gitter som et mm-ark). IMHO problemet med net er ikke selve nettet, men at mange net distraherer fra grafen i stedet for at hjælpe med at læse det. F.eks. i dit eksempel er de stiplede gitterlinjer på samme tid langt til mørke og påtrængende, og på grund af at de er stiplede, skal du ikke til deres job med at hjælpe med at finde vejkryds. Overvej meget lette linjer i stedet, der ikke distraherer indtrykket af grafen, men hvis du koncentrerer dig om dem, skal du hjælpe med at måle.
@cbeleites hvis du har brug for nøjagtige værdier, skal du ** ikke ** læse manuelt fra plot, men bruge digitaliserede tabeller, da der er for stor chance for fejl. Et plot skal hjælpe med at vise størrelsesorden, den generelle tendens og støjniveauet.
Jeg tror ikke, at netlinjer er forældede, da de endda tilnærmelsesvis visuelt estimering er meget sværere uden dem. På den måde kan man snart sige, at tal på aksen er overflødige.
fixer1234
2014-09-23 05:17:56 UTC
view on stackexchange narkive permalink

En alternativ tilgang til at forbinde prikkerne: Indsæt en linje mellem datasættene for at illustrere, at et sæt punkter er over linjen og det andet nedenfor. Hvis det ikke er upassende for dataene, skal du bruge en logskala til X for at få plads mellem de pakkede punkter til venstre for at forbedre synligheden. Brug af farver med højere kontrast og markørformer blev tidligere foreslået.

h22
2014-09-25 13:08:34 UTC
view on stackexchange narkive permalink

Normalt er det bedre at bruge en form for kurvetilpasning (splines osv.), da vi ikke antager, at målingerne er helt nøjagtige, og forbindelseslinjerne skal gå fra punkt til punkt.

Målepunkter skal dog også være til stede og meget tydelige, da de er vores resultater, og linjen er vores hypotese, fortolkning. Det ville være en god ide at vise fejlbjælker (konfidensintervaller).

Jeg afviste at vise fejlbjælker som for tilbøjelige til at forvirre publikum. Også forbindelsen mellem linjerne er virkelig ikke min hypotese. det er en hypotese, men det har næsten intet at gøre med den historie, jeg fortæller. Min historie handler om punkter, der ligger under andre punkter
Hvilken slags skal dit publikum forveksles med fejlbjælker? Hvis de er forskere, har de set sådanne søjler mange gange før.
Som det står i spørgsmålsposten, er de ** ingeniører ** (godt sidste års ingeniørstuderende). Dybest set har ingen af ​​dem set fejlbjælker siden gymnasiet.
Mærkeligt, biologer undervises i statistik, og ingeniører ikke. Nå, så kan være usædvanligt publikum for mig.
Hvorfor skulle din gennemsnitlige ingeniør have brug for eksperimentel statistik? Meget meget få ingeniører undersøger sammenlignet med biologer


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...